色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 阿里達摩院獲KDD 2022最佳論文,國內(nèi)企業(yè)首次獲獎

          阿里達摩院獲KDD 2022最佳論文,國內(nèi)企業(yè)首次獲獎

          發(fā)布人:機器之心 時間:2022-08-20 來源:工程師 發(fā)布文章

          8 月 18 日,全球數(shù)據(jù)挖掘領(lǐng)域頂級會議 KDD 2022 大獎公布,阿里巴巴達摩院團隊斬獲應(yīng)用科學方向“最佳論文獎”,這是中國企業(yè)首次獲得該重磅獎項。

          圖片


          KDD(ACM SIGKDD)是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級學術(shù)會議,也是全球錄取率最低的計算機頂會之一,在知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、人工智能等領(lǐng)域具有重大影響力。KDD 組委會對達摩院獲獎的聯(lián)邦圖學習開源工作 FederatedScope-GNN 給予充分肯定,評語提到,該工作“推動了聯(lián)邦圖學習技術(shù)的發(fā)展,并樹立了優(yōu)秀平臺工作的榜樣”。

          圖片


          KDD會議分為研究和應(yīng)用科學兩個方向,本年度共收到2448篇投稿,僅接受449篇。包括阿里巴巴、華為、騰訊、百度等多家中國科技企業(yè)均有論文被收錄,其中阿里巴巴今年共34篇論文入選,是全球入選論文數(shù)量最多的企業(yè)之一,同時阿里巴巴獨立獲得了大會應(yīng)用科學方向唯一的“最佳論文獎”。歷年榮摘桂冠的包括來自谷歌、亞馬遜、卡內(nèi)基梅隆大學等海外知名機構(gòu)的研究團隊,國內(nèi)企業(yè)此前從未獲得該獎。


          阿里巴巴達摩院獲獎?wù)撐摹?/span>FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦聯(lián)邦學習中應(yīng)用廣泛且技術(shù)復雜的聯(lián)邦圖學習方向,針對現(xiàn)有框架及算法庫對圖數(shù)據(jù)支持有限的情況,提出了包含豐富數(shù)據(jù)集及創(chuàng)新算法的易用平臺,為該領(lǐng)域后續(xù)研究奠定堅實基礎(chǔ)。 

          圖片

          論文鏈接:https://arxiv.org/pdf/2204.05562.pdf

          今年以來,阿里巴巴達摩院在全球頂級學術(shù)會議上多次榮獲大獎,目前已斬獲 KDD 最佳論文、ACL 杰出論文、CVPR 最佳學生論文等獎項。
          值得注意的是,今年 5 月份,阿里巴巴達摩院發(fā)布新型聯(lián)邦學習框架 FederatedScope,通過事件驅(qū)動的編程范式構(gòu)建聯(lián)邦學習,大幅降低了相關(guān)技術(shù)的開發(fā)部署難度。本次 KDD 獲獎工作即為該開源項目的一部分,其關(guān)注的對象是具有復雜鏈接關(guān)系的圖數(shù)據(jù)類型,在科學探索、知識表示、互聯(lián)網(wǎng)、金融等科研及工業(yè)領(lǐng)域均有廣闊應(yīng)用需求。 

          圖片


          以下為達摩院作者團隊對 FederatedScope-GNN 工作的詳細解讀:
          聯(lián)邦圖學習在社交、金融、科研等領(lǐng)域前景廣闊
          圖(graph)是一種用于描述對象間關(guān)系的數(shù)據(jù)類型,在現(xiàn)實生活中無處不在。例如在互聯(lián)網(wǎng)領(lǐng)域,微博等社交網(wǎng)絡(luò)將每個用戶賬號視為節(jié)點(node/vertex),根據(jù)好友關(guān)系給節(jié)點連邊(edge);在金融領(lǐng)域,****將每個賬戶視為一個節(jié)點,將轉(zhuǎn)賬關(guān)系視為節(jié)點間的邊,即兩個節(jié)點間有邊表示對應(yīng)的兩個賬戶間發(fā)生過轉(zhuǎn)賬;在自然科學領(lǐng)域,科學家有時候?qū)⒎肿用枋鰹橐粋€圖,其中節(jié)點象征原子,邊象征原子間的化學鍵;在知識表示領(lǐng)域,人們習慣于將實體表示為節(jié)點,兩個實體間存在關(guān)聯(lián)關(guān)系則對其建立連邊。
          根據(jù)場景不同,圖上的任務(wù)往往分為節(jié)點級別(node-level)、連接級別(link-level)和圖級別(graph-level)。例如****在反洗錢任務(wù)中需要預測每個賬戶是否是風險賬戶,即進行節(jié)點分類,這是一個典型的節(jié)點級別的任務(wù);社交網(wǎng)絡(luò)中的好友推薦,是預測兩個節(jié)點之間是否存在連邊,所以是連接級別的任務(wù);而分子屬性預測中,目標是預測每個分子圖的某種屬性,所以是圖級別的任務(wù)。
          在圖數(shù)據(jù)上的各種任務(wù)中,近年來興起的圖神經(jīng)網(wǎng)絡(luò)(graph neural networks)得到學術(shù)界和工業(yè)界的廣泛關(guān)注并取得了顯著的成功。這些成功一方面得益于圖神經(jīng)網(wǎng)絡(luò)強大的表示能力與泛化能力,同時也受益于上述各類現(xiàn)實場景中圖數(shù)據(jù)的收集與積累。作為一種數(shù)據(jù)驅(qū)動的機器學習方法,更充足的圖數(shù)據(jù)往往能引導圖神經(jīng)網(wǎng)絡(luò)得到更優(yōu)秀的性能。
          因此,各個機構(gòu)往往具有強烈的意愿去基于各方的圖數(shù)據(jù)共同訓練圖神經(jīng)網(wǎng)絡(luò)。例如,若干****共同訓練反洗錢模型往往能得到分類準確率更高的圖神經(jīng)網(wǎng)絡(luò)(如圖一所示);多個研究機構(gòu)希望能融合各自擁有的知識圖譜來更準確地補全缺失的知識;多家****企已經(jīng)開始嘗試基于大家各自擁有的分子標注聯(lián)合訓練用于新****發(fā)現(xiàn)的圖神經(jīng)網(wǎng)絡(luò)。  

          圖片

          圖一:****反洗錢場景
          然而,考慮到數(shù)據(jù)隱私保護和商業(yè)競爭等因素,機構(gòu)之間不能直接把原始的數(shù)據(jù)集中起來進行模型訓練。如何在符合監(jiān)管要求,即嚴格保護各方數(shù)據(jù)隱私的前提下進行合作,共同訓練圖神經(jīng)網(wǎng)絡(luò),成為了研究和應(yīng)用的焦點。聯(lián)邦圖學習給出了一種可行的解法,即在 “數(shù)據(jù)可用而不可見” 的設(shè)定下,各方圖數(shù)據(jù)不出域而只交互模型參數(shù)等信息來進行合作式的模型訓練。
          現(xiàn)有聯(lián)邦學習框架及算法庫對圖數(shù)據(jù)支持有限
          近年來,在全社會對隱私保護日益重視的背景下,聯(lián)邦學習的研究和應(yīng)用得到了長足發(fā)展。這一進步在很大程度上得益于聯(lián)邦學習框架(framework)及算法庫(package)的支持。這類基礎(chǔ)設(shè)施和開箱即用的模塊使得研究人員能夠?qū)W⒂诶碚摵退惴ǖ膭?chuàng)新而不需要過度關(guān)心實現(xiàn)的細節(jié),同時使得工程師能高效開發(fā)、仿真、部署,大大加快了聯(lián)邦學習在現(xiàn)實應(yīng)用中的落地。具有代表性的聯(lián)邦學習框架包括 Google 公司的 TensorFlow Federated (TFF)、微眾****的 FATE 等。
          當前,這類框架對聯(lián)邦學習中各個參與方的通信、計算圖的描述和拆分調(diào)度、模型的部署與推理等一般性的基礎(chǔ)設(shè)施均有完整豐富的支持。但是,現(xiàn)有聯(lián)邦學習相關(guān)的框架和庫對圖聯(lián)邦的支持相對有限,框架中提供的現(xiàn)成圖數(shù)據(jù)集、圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、專門針對圖學習設(shè)計的聯(lián)邦學習算法等也還不夠全面,難以基于這些已有工作去建立聯(lián)邦圖學習的基準。這導致當前流行的若干聯(lián)邦優(yōu)化算法工作和廣泛采用的基準,如 LEAF,更多地關(guān)注視覺和自然語言領(lǐng)域的基準,但是尚缺少對圖神經(jīng)網(wǎng)絡(luò)在圖數(shù)據(jù)上的性能評估。
          而且,針對圖數(shù)據(jù)的聯(lián)邦學習算法有別于常規(guī)算法簡單的聚合行為,對算法實現(xiàn)提出了更多要求。一方面是參與者間交換的數(shù)據(jù)更多種多樣,比如近期發(fā)表的 FedSage + 算法需要在參與者間交換節(jié)點的嵌入式表示以及一個關(guān)于鄰居特征的生成模型。同時,更多樣的信息交換導致各個參與者需要有更豐富的行為去處理收到的信息,例如 GCFL + 算法中 server 需要動態(tài)地對收集到的梯度進行聚類操作。現(xiàn)有框架大多以中心化的視角,讓開發(fā)者以聲明式的編程范式描述計算圖來表達算法流程。這種方式雖然適用于實現(xiàn)常規(guī)的聯(lián)邦學習算法(例如 FedAvg),卻對實現(xiàn)上述聯(lián)邦圖學習算法帶來了較高的開發(fā)門檻。
          在這個背景下,學術(shù)界和工業(yè)界都對一款功能全面且對實現(xiàn)聯(lián)邦圖學習算法友好的框架具有強烈需求。
          FederatedScope-GNN:為聯(lián)邦圖學習建立豐富基準
          為了更好地滿足上述需求,阿里巴巴達摩院智能計算實驗室提出并基于聯(lián)邦學習框架 FederatedScope 實現(xiàn)了針對圖學習的庫 FederatedScope-GNN,并以此工作形成了本次獲獎?wù)撐摹禙ederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。
          FederatedScope-GNN 針對圖學習提供了 DataZoo 和 ModelZoo,分別為用戶提供了豐富多樣的聯(lián)邦圖數(shù)據(jù)集和相應(yīng)的模型與算法。DataZoo 既包含若干新引入的數(shù)據(jù)集,也實現(xiàn)了大量不同類型的 splitters,用于通過單機圖數(shù)據(jù)集來構(gòu)造聯(lián)邦圖數(shù)據(jù)集。DataZoo 提供的大量數(shù)據(jù)集涵蓋了不同領(lǐng)域、不同任務(wù)類型、不同統(tǒng)計異質(zhì)性的聯(lián)邦圖數(shù)據(jù),大大方便了使用者對所關(guān)注算法進行全面的評估。
          ModelZoo 提供了豐富的圖神經(jīng)網(wǎng)絡(luò)實現(xiàn),既包含傳統(tǒng)的 GCN、GIN、GAT、GraphSage 等架構(gòu),也提供了最新的 GPRGNN 等拆分了特征變換與消息傳播的架構(gòu)。同時,ModelZoo 也包含了像 FedSage + 和 GCFL + 這樣最新的聯(lián)邦圖學習算法的實現(xiàn)。其中,得益于底層框架事件驅(qū)動(event-driven)的編程范式,參與者間多樣的消息交換和參與者豐富的行為得以模塊化地進行拆分實現(xiàn)(如圖二所示)。ModelZoo 給研究人員復現(xiàn)相關(guān)工作以及建立新的基準帶來了更多便利。 

          圖片

          圖二:基于事件驅(qū)動的底層框架 FederatedScope 來實現(xiàn)聯(lián)邦圖學習算法 FedSage+。
          與此同時,針對聯(lián)邦圖學習對超參數(shù)敏感的現(xiàn)象,F(xiàn)ederatedScope-GNN 還實現(xiàn)了模型調(diào)優(yōu) (model tuning) 相關(guān)的模塊,包括多保真度的 Successive Halving Algorithm 和新近提出的聯(lián)邦超參優(yōu)化算法 FedEx,以及針對聯(lián)邦異質(zhì)任務(wù)的個性化(如圖三所示,各個參與者被允許使用獨立的特有神經(jīng)架構(gòu)而只聚合學習共享部分)。考慮到諸如 FedSage + 這類聯(lián)邦圖學習算法交換節(jié)點嵌入式表示等信息的特點,F(xiàn)ederatedScope-GNN 提供了豐富的隱私評估算法對算法在隱私保護方面的能力進行檢驗。 

          圖片

          圖三:一個個性化圖神經(jīng)網(wǎng)絡(luò)的示例,其中各參與方僅共享模型的一部分參數(shù)。
          基于上述功能和特性,該獲獎?wù)撐慕⒘巳尕S富的關(guān)于聯(lián)邦圖學習的基準,包含不同圖上任務(wù)、不同圖神經(jīng)網(wǎng)絡(luò)架構(gòu)、不同的聯(lián)邦優(yōu)化算法等,為該領(lǐng)域后續(xù)的研究奠定了堅實基礎(chǔ)。同時,關(guān)于聯(lián)邦設(shè)定下對圖神經(jīng)網(wǎng)絡(luò)訓練進行超參優(yōu)化的實驗,展示了對不同保真度維度進行權(quán)衡的潛在優(yōu)勢;關(guān)于個性化的實驗,展示了應(yīng)對各參與方同配度差異的有效性。
          聯(lián)邦學習下圖數(shù)據(jù)補全值得關(guān)注
          FederatedScope-GNN 給相關(guān)領(lǐng)域的研究和應(yīng)用帶來了極大的便利,其對應(yīng)論文的獲獎不僅反映了各位相關(guān)專家學者對這一工作的肯定,同時也體現(xiàn)了學界對聯(lián)邦圖學習領(lǐng)域未來長足發(fā)展的期冀。
          一個值得指出且被廣泛注意的研究方向是在保護好各參與方隱私的前提下,關(guān)注各參與方如何對其圖數(shù)據(jù)進行補全,使得圖神經(jīng)網(wǎng)絡(luò)能基于完整圖結(jié)構(gòu)進行消息傳播。FederatedScope-GNN 所提供的功能和特性將支持研究與開發(fā)人員開展更多的相關(guān)研究、落地更多的實際應(yīng)用。
          論文作者簡介
          第一作者
          王楨,阿里巴巴達摩院智能計算實驗室算法專家。2017 年博士畢業(yè)于中山大學數(shù)據(jù)科學與計算機學院,讀博期間以一作身份發(fā)表知識圖譜補全算法 TransH,單篇引用量超 2500 次。畢業(yè)后加入阿里巴巴,曾任阿里云高級算法工程師,專注于強化學習方向。在達摩院工作期間,致力于聯(lián)邦圖學習等領(lǐng)域前沿研究,多次在 KDD Cup 比賽中取得高排名成績,發(fā)表多篇國際頂級會議論文,并作為核心設(shè)計與開發(fā)人員參與開源 FederatedScope 平臺。

          圖片


          通訊作者
          李雅亮,阿里巴巴達摩院智能計算實驗室高級算法專家,2017 年于紐約州立大學布法羅分校計算機科學與工程系取得博士學位。研究領(lǐng)域包括數(shù)據(jù)融合、因果推斷、自動機器學習、隱私計算,研究成果發(fā)表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多個領(lǐng)域的頂尖國際會議與期刊。他擔任了 NeurIPS'21、NeurIPS'22、AAAI'22 的領(lǐng)域主席,在 IJCAI 和 NeurIPS 上三次組織 workshop,在 CIKM'22 上組織了 AnalytiCup 比賽,并在 KDD、AAAI 上多次做了 Tutorial。

          圖片


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

          linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉