清華團(tuán)隊(duì)綜述全面解讀圖神經(jīng)網(wǎng)絡(luò)理論方法與應(yīng)用
以下文章來源于學(xué)術(shù)頭條 ,作者學(xué)術(shù)頭條
近年來,由于圖的強(qiáng)大表達(dá)能力,利用機(jī)器學(xué)習(xí)分析圖的研究越來越受到關(guān)注。圖(graph)作為一種數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(node)和邊(edge)組成,如果賦予節(jié)點(diǎn)和邊不同的含義,那么看似簡(jiǎn)單的圖就可以組成非常龐大的信息。例如,若圖中的節(jié)點(diǎn)代表商品,邊表示購買順序,那么連起來就代表了一個(gè)用戶的購物網(wǎng)絡(luò)。
圖 | 一個(gè)最簡(jiǎn)單的圖包含節(jié)點(diǎn)和邊(箭頭表示關(guān)系方向)
如今,在圖領(lǐng)域機(jī)器學(xué)習(xí)中,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,簡(jiǎn)稱 GNN)又成為新的研究熱點(diǎn)。由于 GNN 對(duì)圖節(jié)點(diǎn)之間依賴關(guān)系進(jìn)行建模的強(qiáng)大能力,它在社交網(wǎng)絡(luò)、知識(shí)圖、推薦系統(tǒng)甚至生命科學(xué)等各個(gè)領(lǐng)域都得到了越來越廣泛的應(yīng)用。
近日,清華大學(xué)研究團(tuán)隊(duì)就針對(duì) GNN 的最新發(fā)展,于 AI OPEN 發(fā)表了題為 “Graph neural networks: A review of methods and applications” 的研究綜述。文中詳細(xì)總結(jié)了構(gòu)建 GNN 模型的 “四步” 框架并作理論分析,展示了 GNN 在各學(xué)科中常見的應(yīng)用,并最后提出四個(gè)開放性問題,表明了圖神經(jīng)網(wǎng)絡(luò)的主要挑戰(zhàn)和未來研究方向。
四步構(gòu)建 GNN
GNN 是基于圖的深度學(xué)習(xí)方法,作為神經(jīng)模型的一種,它通過圖節(jié)點(diǎn)之間的消息傳遞來捕獲圖的依賴性。GNN 的設(shè)計(jì)流程通常包含四個(gè)步驟:找出相應(yīng)的圖結(jié)構(gòu)、指定圖類型與規(guī)模、設(shè)計(jì)損失函數(shù)、使用計(jì)算模塊構(gòu)建模型。
在此次的研究中,作者就詳細(xì)描述這四個(gè)步驟的操作框架。
(1)找到與目標(biāo)相適應(yīng)的圖結(jié)構(gòu):通??梢苑譃榻Y(jié)構(gòu)化場(chǎng)景和非結(jié)構(gòu)化場(chǎng)景。在結(jié)構(gòu)化場(chǎng)景中,圖結(jié)構(gòu)在應(yīng)用中比較明確,例如在分子、物理系統(tǒng)、知識(shí)圖等上的應(yīng)用。而在非結(jié)構(gòu)化場(chǎng)景中,圖是隱含的,因此首先要從任務(wù)中構(gòu)建圖,例如為文本構(gòu)建一個(gè)完全連接的 “詞” 圖或?yàn)閳D像構(gòu)建一個(gè)場(chǎng)景圖。
(2)指定圖類型和規(guī)模:在獲得圖形后,需要找出圖形類型及其規(guī)模。圖通常分為有向 / 無向圖、同構(gòu) / 異構(gòu)圖(同構(gòu)圖中的節(jié)點(diǎn)和邊具有相同的類型,而異構(gòu)圖中的節(jié)點(diǎn)和邊具有不同的類型)、靜態(tài) / 動(dòng)態(tài)圖(當(dāng)輸入特征或圖的拓?fù)潆S時(shí)間變化時(shí),該圖被視為動(dòng)態(tài)圖)。
圖 | 圖類型與規(guī)模及其詳細(xì)分類(來源:論文)
(3)設(shè)計(jì)損失函數(shù):對(duì)于圖學(xué)習(xí)任務(wù),通常有節(jié)點(diǎn)級(jí)任務(wù)、邊級(jí)任務(wù)、圖級(jí)任務(wù)三種。而從訓(xùn)練設(shè)置的角度來看,圖學(xué)習(xí)任務(wù)分為監(jiān)督設(shè)置(為訓(xùn)練提供標(biāo)記數(shù)據(jù))、半監(jiān)督設(shè)置(給出少量標(biāo)記節(jié)點(diǎn)和大量未標(biāo)記節(jié)點(diǎn)用于訓(xùn)練)、以及無監(jiān)督設(shè)置(僅提供未標(biāo)記的數(shù)據(jù))。
(4)使用計(jì)算模塊構(gòu)建模型:常用的計(jì)算模塊有傳播模塊、采樣模塊、池化模塊。傳播模塊用于在節(jié)點(diǎn)之間傳播信息,以便聚合信息可以捕獲特征和拓?fù)湫畔?。?dāng)圖很大時(shí),通常需要采樣模塊對(duì)圖進(jìn)行傳播。如果需要高級(jí)子圖或圖的表示,則需要池化模塊從節(jié)點(diǎn)中提取信息。
圖 | 三種計(jì)算模塊及其詳細(xì)操作(來源:論文)
GNN 的實(shí)際應(yīng)用
接下來,作者們還對(duì)當(dāng)前 GNN 的熱點(diǎn)應(yīng)用一一進(jìn)行闡釋,并根據(jù)結(jié)構(gòu)化場(chǎng)景和非結(jié)構(gòu)化場(chǎng)景對(duì)其進(jìn)行分類。
結(jié)構(gòu)化場(chǎng)景 GNN 應(yīng)用包括:圖挖掘(如圖匹配、圖分類、圖聚類)、物理(即模擬現(xiàn)實(shí)世界的物理系統(tǒng),如電磁系統(tǒng)、機(jī)器人系統(tǒng)等)、化學(xué)和生物學(xué)(如分子指紋、化學(xué)反應(yīng)預(yù)測(cè)、生物工程等)、知識(shí)圖譜(knowledge graph,表示現(xiàn)實(shí)世界實(shí)體的集合以及實(shí)體對(duì)之間的關(guān)系事實(shí),例如問答、信息檢索和知識(shí)引導(dǎo)生成)、生成模型、組合優(yōu)化、交通網(wǎng)絡(luò)(例如預(yù)測(cè)交通狀態(tài))、推薦系統(tǒng)(如社交網(wǎng)絡(luò)自動(dòng)推薦功能)、其他應(yīng)用(如預(yù)測(cè)股****未來趨勢(shì)、預(yù)測(cè)市場(chǎng)指數(shù)****、優(yōu)化路由性能、在文本生成任務(wù)的抽象含義表示等)。
非結(jié)構(gòu)化場(chǎng)景 GNN 應(yīng)用則主要包括圖像和文本上的任務(wù),如機(jī)器視覺推理、語義分割、文本分類、神經(jīng)機(jī)器翻譯、關(guān)系抽取、事件驗(yàn)證、閱讀理解等等。
挑戰(zhàn)與未來發(fā)展
盡管 GNN 在不同領(lǐng)域取得了巨大成功,但值得注意的是,GNN 模型還不足以為大多圖任務(wù)提供令人滿意的解決方案。于是,研究人員通過綜述已有研究,總結(jié)了以下四個(gè)未解決的問題:
穩(wěn)健性:作為一種基于神經(jīng)網(wǎng)絡(luò)的模型,GNN 也很容易受到對(duì)抗性攻擊。而且與僅關(guān)注特征的對(duì)圖像或文本的對(duì)抗性攻擊相比,對(duì)圖的攻擊進(jìn)一步考慮了結(jié)構(gòu)信息。
可解釋性:可解釋性也是神經(jīng)模型的一個(gè)重要研究方向,不過目前 GNN 如同黑箱,仍缺乏解釋。因此,將 GNN 模型應(yīng)用于具有可解釋性的實(shí)際應(yīng)用非常重要。
圖預(yù)訓(xùn)練:基于神經(jīng)網(wǎng)絡(luò)的模型需要大量的標(biāo)記數(shù)據(jù),但是獲得大量人工標(biāo)記的數(shù)據(jù)成本很高。因此,用自監(jiān)督方法來指導(dǎo) GNN 模型從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)從而進(jìn)行預(yù)訓(xùn)練無疑是一種創(chuàng)新,但該領(lǐng)域仍有許多開放性問題需要研究、。
復(fù)雜的圖結(jié)構(gòu):圖結(jié)構(gòu)在現(xiàn)實(shí)生活的應(yīng)用中靈活又復(fù)雜,而且隨著互聯(lián)網(wǎng)上社交網(wǎng)絡(luò)的快速發(fā)展,肯定會(huì)出現(xiàn)更多的問題、挑戰(zhàn)和應(yīng)用場(chǎng)景,需要更強(qiáng)大的模型。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。