2W字長文 | 漫談工業(yè)界圖神經(jīng)網(wǎng)絡(luò)推薦系統(tǒng)(5)
3.6 Gemini: A Novel and Universal Heterogeneous Graph Information Fusing Framework for Online Recommendations[39] [Gemini],KDD 2020,滴滴
問題背景:基于User-Item二分圖的方法,一種是直接在原圖上交叉聚合,另一種是借助輔助數(shù)據(jù)(如社交網(wǎng)絡(luò))將其劃分為User-User,Item-Item同構(gòu)圖。前者會存在鄰居稀疏的問題,后者則丟失了User-Item關(guān)聯(lián)信息,并且輔助數(shù)據(jù)限制了應(yīng)用場景。
業(yè)務(wù)場景:物品推薦排序階段
圖的構(gòu)建:群體用戶行為數(shù)據(jù)構(gòu)建的二分圖,接著通過User-Item-User,Item-User-Item關(guān)系導(dǎo)出User-User和Item-Item同構(gòu)圖,由于是通過二階鄰居導(dǎo)出的子圖,在某種程度上緩解了鄰居稀疏的問題。
特征使用:
Node Embedding:同構(gòu)子圖可以使用User和Item的多種特征,但是作者對邊的異構(gòu)性進(jìn)行了建模,因此實(shí)際只能使用ID特征。
Edge Embedding
User-User子圖中,邊由導(dǎo)出時的中間Items決定(保留了原來的一階鄰居信息)
直接對Items Sum pooling無法建模重要性差異,因此作者提出了TF-IDF Pooling,其中TF是某Item在該邊對應(yīng)的所有Items中的占比,占比越大,說明對該邊來說越重要;IDF是某Item在所有邊對應(yīng)的Items集合中的占比,占比越大,說明該Item重要性越低。TF-IDF=TF*IDF。
這里沒有直接用TF-IDF加權(quán)求和,而是將該得分分桶離散化然后Embedding,通過元素積的方式進(jìn)行特征交叉
采樣方法:Node-Wise Sampling Attention based Aggregating:加性模型計(jì)算Attention,并且考慮了Edge Embedding,得到鄰域Embedding后與自身Embedding進(jìn)行融合。
Gemini Framework
訓(xùn)練推斷:使用MLP計(jì)算User點(diǎn)擊某Item的概率,損失函數(shù)交叉熵,點(diǎn)擊Item為正樣本,曝光未點(diǎn)擊Item為負(fù)樣本(因此可以斷定是排序模型)
Joint training:在User-User上聚合鄰居時,Edge Embedding需要用到Item Embedding,反之亦然,所以User-User和Item-Item的聚合過程是相互依賴的。
Gemini-Collaboration Framework:似乎是將原來相互依賴的兩個聚合過程分開,先將其中一個訓(xùn)練至收斂再進(jìn)行另一個,從而降低訓(xùn)練的復(fù)雜度,類似GAN的訓(xùn)練方式。
3.7 Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks for Cold-start Recommendation[40] [MvDGAE],KDD 2021,騰訊
問題背景:User-Item行為數(shù)據(jù)往往非常稀疏,新用戶或新商品存在冷啟動問題。一類方法通過引入更多屬性特征緩解,但是這會非常依賴特征數(shù)據(jù)的獲取和質(zhì)量;另一類方法通過HIN引入屬性信息來緩解(這和上面的有什么區(qū)別),但是它們大多通過有監(jiān)督的方式訓(xùn)練,會產(chǎn)生訓(xùn)練和測試階段的不一致(訓(xùn)練階段大多是old user或item,測試階段存在更多new user或item,它們在圖中的連接會比較稀疏,只存在一些屬性關(guān)聯(lián))。
業(yè)務(wù)場景:文中沒有具體說,從損失函數(shù)與推斷方式來看似乎是物品推薦的排序階段
圖的構(gòu)建:群體用戶行為數(shù)據(jù)+屬性數(shù)據(jù)構(gòu)成的異構(gòu)圖
特征使用:從聚合方式來看,只用上了ID特征(需要注意的是,這里是是指單個結(jié)點(diǎn)的ID特征,實(shí)際上在HIN中,屬性特征被建模為了結(jié)點(diǎn),例如,電影的演員特征,演員被建模為了結(jié)點(diǎn))
采樣方法:分為兩個階段,Encoder階段基于Meta-Path(首尾不限) Node-Wise采樣,Decoder階段基于特定的Meta-Path(首尾相同)采樣出User-User和Item-Item子圖,每個Meta-Path對應(yīng)一個View。Multi-view Graph Encoders
Node-level Aggregation based on Meta-path:通過GAT聚合Node-Wise采樣到的鄰居,這里不同于HAN,對于Meta-Path上的鄰居(存在不同類型)都會聚合。
Dropout on Multi-views:這里是對View的Dropout,而不是某個View下Edge的Dropout,通過Dropout可以迫使學(xué)習(xí)到的Embedding更具泛化性,在測試時對于連接稀疏的new user或item有更好效果。
Multi-view Graph Denoising Decoding
Construct Multi-View Graph:基于首尾相同的Meta-Path構(gòu)建不同View的User-User和Item-Item子圖,使得那些相似的User或Item的表征也更接近。
Multi-View Graph Decoding:用Encoder得到的Embedding重構(gòu)多個View的子圖,即鏈接預(yù)測任務(wù)。
Sampling Strategy:對所有結(jié)點(diǎn)對預(yù)測邊開銷太大,需要經(jīng)過采樣預(yù)測部分邊,這里對Meta-Path 1-hop鄰居完全采樣,然后對2 hop鄰居部分隨機(jī)采樣,以緩解1-hop鄰居稀疏的問題。
Bayesian Task Weight Learner:多個View子圖的Encoder和Decoder是獨(dú)立的,最終需要將它們的Loss整合到一起聯(lián)合訓(xùn)練,這里也用了異方差不確定性來自動學(xué)習(xí)權(quán)重。
Optimization Objective:Loss由兩部分組成,一部分是重構(gòu)Loss,一部分是評分Loss(均方差)(如果只有點(diǎn)擊數(shù)據(jù),那就是交叉熵),所以本文其實(shí)是利用到了標(biāo)簽數(shù)據(jù),是無監(jiān)督+有監(jiān)督的結(jié)合。
3.8 Graph Intention Network for Click-through Rate Prediction in Sponsored Search[36] [GIN],SIGIR 2019,阿里
問題背景:使用單個用戶的歷史行為表征用戶興趣存在行為稀疏和泛化性弱的問題;圖神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練的方式得到的Embedding與目標(biāo)任務(wù)不相關(guān)。
業(yè)務(wù)場景:搜索廣告排序階段
圖的構(gòu)建:群體用戶行為數(shù)據(jù)構(gòu)建Item同構(gòu)圖。首先將Item點(diǎn)擊序列按照Query相關(guān)性劃分為多個Session,然后在Session內(nèi)相鄰Item之間構(gòu)建鄰居關(guān)系(防止不相關(guān)的兩個Item成為鄰居),邊的權(quán)重為共現(xiàn)頻數(shù)。具體使用近30天所有用戶的點(diǎn)擊序列構(gòu)建商品相似圖。
特征使用:多種特征
采樣方法:Node-Wise Sampling,根據(jù)共現(xiàn)頻數(shù)計(jì)算概率分布 模型結(jié)構(gòu):為序列中的每個Item采樣鄰居用GNN聚合得到更一般的Embedding,即通過構(gòu)建圖引入額外信息豐富行為序列從而緩解行為稀疏問題和泛化性弱的問題。得到更一般的Embedding后就是常規(guī)的Target Attention抽取序列中的偏好信息。
3.9 ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation[37] [ATBRG],SIGIR 2020,阿里
問題背景:基于Meta-Path的方法,一方面需要人工經(jīng)驗(yàn)設(shè)計(jì),另一方面會損失結(jié)構(gòu)信息(各Meta-Path獨(dú)立);基于GNN的方法,一方面對Target Item和User分別采樣,缺少它們之間的交互性,另一方面隨機(jī)采樣鄰居可能會引入噪聲(這個得看圖是怎么構(gòu)建的吧,并且我們也可以按權(quán)重采樣)。
a中由于各Meta-Path獨(dú)立,襯衫和連衣裙沒能建立起關(guān)聯(lián)
b中一方面由于分別采樣,丟失了Target Item與用戶行為過的連衣裙的關(guān)聯(lián),另一方面由于隨機(jī)采樣反而引入了開水壺噪聲
c中用本文特有的構(gòu)建圖的方式,最終得到的KG圖既能較好地保留結(jié)構(gòu)信息,又能去除一些與Target Item不相關(guān)的噪聲。
業(yè)務(wù)場景:商品推薦排序階段
圖的構(gòu)建:群體用戶行為數(shù)據(jù)+屬性數(shù)據(jù)構(gòu)建的異構(gòu)圖
特征使用:ID特征
采樣方法:從Target Item和用戶行為過的Items構(gòu)成的Root Nodes合集中,分別為每個結(jié)點(diǎn)在圖中采樣K-Hop鄰居,根據(jù)采樣的結(jié)點(diǎn)集合從原圖中誘導(dǎo)出子圖(區(qū)別于獨(dú)立采樣,可以建立Target Item與行為過的相關(guān)的Item的聯(lián)系),對于該子圖中只有一個鄰居的結(jié)點(diǎn)進(jìn)行剪枝(這些結(jié)點(diǎn)很可能是噪聲)。
Embedding Layer:User和Target Item的Embedding(ID和其他特征),異構(gòu)圖(KG圖)中實(shí)體和關(guān)系的Embedding。
Relation-aware Extractor Layer:這里是用中心結(jié)點(diǎn)計(jì)算鄰居結(jié)點(diǎn)的重要性,同時對“關(guān)系”進(jìn)行了建模,即關(guān)系的類型會影響重要性,例如,點(diǎn)擊和購買兩種關(guān)系,顯然表現(xiàn)出的興趣程度不同
Representation Activation Layer:得到Target Item和Sequence Item的Embedding后,這里又進(jìn)一步使用Target Attention篩選相關(guān)信息
Feature Interaction Layer:將所有Embedding Concat后送入MLP做特征交叉
3.10 GMCM: Graph-based Micro-behavior Conversion Model for Post-click Conversion Rate Estimation[38] [GMCM],SIGIR 2020,阿里
問題背景
微觀行為與最終是否成交高度相關(guān),但是微觀行為不適合用序列建模,不同順序的微觀行為表達(dá)的可能是同一意圖,例如,用戶在購買前先看評論再看問大家,和先看問大家再看評論,表達(dá)的意圖一樣。(這里的微觀行為是指用戶點(diǎn)擊商品后,購買商品前發(fā)生的一系列行為,例如評論,收藏等)
CVR任務(wù)存在數(shù)據(jù)稀疏的問題(用戶的成交行為是稀疏的)
CVR任務(wù)存在樣本選擇偏差的問題(用戶是先點(diǎn)擊后成交,但是線上CVR預(yù)估時,是從全域候選集經(jīng)過召回后打分,而不是對用戶發(fā)生過點(diǎn)擊的Item打分) 業(yè)務(wù)場景:商品推薦排序階段
圖的構(gòu)建:群體用戶行為數(shù)據(jù)構(gòu)建的異構(gòu)圖
微觀行為圖,結(jié)點(diǎn)是微觀行為,邊是共現(xiàn)頻數(shù)歸一化后的權(quán)重
用所有用戶的微觀行為數(shù)據(jù)構(gòu)建圖,即該圖反映的是一般性的群體規(guī)律,對于單個用戶其微觀行為數(shù)據(jù)體現(xiàn)在Node Loss中
特征使用:上游多種特征變換對齊后的Embedding
采樣方法:微觀行為圖是很小的,不需要進(jìn)行采樣 Multi-task Learning Modul:底層共享部分Embedding(特別是ID Embedding)
Graph-based CVR Networks
MLP Layers
Node Embedding Layer:將MLP的輸出通過N個1-Layer MLP映射為N個微觀行為結(jié)點(diǎn)Embedding
Graph Convolutional Networks
P是歸一化后的共現(xiàn)頻數(shù),B是一個可學(xué)習(xí)的權(quán)重矩陣
這里分成了兩個任務(wù),一個是預(yù)測某個微觀行為結(jié)點(diǎn)是否存在,即在構(gòu)建圖時是默認(rèn)所有微觀結(jié)點(diǎn)都存在,并且圖的邊權(quán)也是所有用戶數(shù)據(jù)統(tǒng)計(jì)出的。單個用戶的微觀行為數(shù)據(jù)是在Node Loss中體現(xiàn)的。
另一個是將CVR預(yù)測轉(zhuǎn)化為了圖分類任務(wù),即微觀行為圖可以反映用戶是否會發(fā)生成交
圖的Embedding通過Graph Pooling得到,例如Sum pooling,Mean pooling,Concat Pooling
Loss Layer:相應(yīng)的PMG Loss也由Node Loss和CVR Loss構(gòu)成,最終Loss由PMG Loss和CTR Loss組合而成(也有分別訓(xùn)練)。這里將CTR預(yù)估分?jǐn)?shù)作為了IPV來Debias。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
LCD顯示屏相關(guān)文章:lcd顯示屏原理
lcd相關(guān)文章:lcd原理