色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > KDD 2021 | Transformer、知識圖譜等熱點(diǎn)話題,微軟亞洲研究院論文精選,速看!

          KDD 2021 | Transformer、知識圖譜等熱點(diǎn)話題,微軟亞洲研究院論文精選,速看!

          發(fā)布人:MSRAsia 時間:2021-08-20 來源:工程師 發(fā)布文章

          編者按:第27屆國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會 KDD 2021 于8月14日-18日在線上正式開幕。本次大會共收到1541篇投稿,其中238篇論文被接收,接收率為15.44%。今天我們精選了微軟亞洲研究院在此次大會上發(fā)表的多篇論文中的5篇,來為大家進(jìn)行簡要介紹,論文主題涵蓋:Transformer、云系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、最優(yōu)運(yùn)輸、知識圖譜、表格數(shù)據(jù)理解、Table2Charts 模型等。歡迎大家積極參與文末的投****活動,我們將邀請大家最感興趣的論文的作者進(jìn)行深度講解,與大家線上交流!

          01HALO:云系統(tǒng)中基于層級關(guān)系感知的故障定位方法

          1.png

          論文鏈接:

          https://www.microsoft.com/en-us/research/publication/halo-hierarchy-aware-fault-localization-for-cloud-systems/

          在大規(guī)模工業(yè)云平臺中,故障診斷對于維持系統(tǒng)的高可靠性至關(guān)重要。當(dāng)云平臺中發(fā)生故障報警時,快速縮小問題范圍并找到根本原因是頭等要務(wù)。本文主要聚焦于利用多維度監(jiān)控數(shù)據(jù)(見表1)進(jìn)行故障診斷。其旨在通過大量的監(jiān)控數(shù)據(jù),找出故障集中的一組屬性值組合,進(jìn)而圈定根因范圍,以實現(xiàn)加速故障解決的目標(biāo)。

          2.png

          表1:多維度監(jiān)控數(shù)據(jù)

          事實上,面對復(fù)雜的云系統(tǒng)環(huán)境和高維度、大規(guī)模的監(jiān)控數(shù)據(jù),傳統(tǒng)的人工分析十分低效且難以推廣。針對這個問題,學(xué)術(shù)界近幾年提出了很多種數(shù)據(jù)驅(qū)動的故障診斷方法。然而,由于待搜索的屬性值組合空間呈指數(shù)量級,所以其中大多數(shù)方法的效率遠(yuǎn)達(dá)不到實時診斷的要求。而且在大部分的現(xiàn)有工作中,監(jiān)控數(shù)據(jù)中各維度之間的層級關(guān)系都沒有被考慮到。(如數(shù)據(jù)中心由若干集群組成,一個集群又包含多個節(jié)點(diǎn),如圖1)因此,相關(guān)工作很難將故障精確地定位到適當(dāng)?shù)膶蛹壛6?,以引?dǎo)正確的診斷方向。

          3.png

          圖1:云系統(tǒng)中的層級關(guān)系

          針對上述問題,微軟亞洲研究院的研究員們提出了基于層級關(guān)系感知的故障定位方法:HALO(見圖2)。與以往的方法不同,HALO 將定位過程分為兩個階段:屬性列搜索階段和屬性值搜索階段。在屬性列搜索階段,HALO 首先可以自動識別監(jiān)控數(shù)據(jù)中不同維度之間的層次關(guān)系,以構(gòu)建 Attribute Hierarchy Graph(AHG);然后,HALO 在 AHG 上采用概率隨機(jī)游走的方式來生成屬性列搜索路徑。在屬性值搜索階段,HALO 沿屬性列搜索路徑,通過寬度自適應(yīng) Beam Search 技術(shù)實現(xiàn)自頂向下的搜索,以得到屬性值組合;最后,HALO 將采用反向截斷策略,進(jìn)一步精簡搜索結(jié)果。

          4.png

          圖2:HALO 示意圖

          通過在真實數(shù)據(jù)集上將 HALO 與其他方法進(jìn)行對比(見表2),可以看出 HALO 能明顯提高故障定位的準(zhǔn)確率。并且通過對比運(yùn)行時間(見圖3),也可以看出 HALO 的運(yùn)行效率遠(yuǎn)超同類別的其他方法。目前 HALO 已經(jīng)成功地應(yīng)用在微軟多個產(chǎn)品的不同場景中,如 Microsoft Azure 云計算平臺中的虛擬機(jī)故障診斷和 Microsoft 365 中的 Exchange Online 安全部署等。實際的應(yīng)用效果都充分表明 HALO 具有很好的通用性和實用價值。

          5.png

          表2:真實數(shù)據(jù)集中 HALO 與其他方法的對比

          6.png

          圖3:HALO 與其他方法運(yùn)行時間的對比

          02基于 TRA 和最優(yōu)運(yùn)輸學(xué)習(xí)多種股****交易模式

          7.png論文鏈接:

          https://arxiv.org/pdf/2106.12950.pdf

          代碼鏈接:

          https://github.com/microsoft/qlib/tree/main/examples/benchmarks/TRA

          股****預(yù)測是量化投資中最為關(guān)鍵的任務(wù)。近年來,深度神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的表征學(xué)習(xí)能力和非線性建模能力,逐漸成為股****預(yù)測的主流方法?,F(xiàn)有的預(yù)測方法均假設(shè)股****數(shù)據(jù)符合獨(dú)立同分布(IID)且采用單一模型有監(jiān)督地對股****數(shù)據(jù)建模。但實際上,股****數(shù)據(jù)通常會包含多種不同甚至對立的分布(Non-IID),比如動量(歷史收益率高的股****未來收益率會高)和反轉(zhuǎn)(歷史收益率低的股****未來收益率會高)這兩種分布形式同時存在于股****數(shù)據(jù)中,但是已有的模型并不具備同時學(xué)習(xí)股****數(shù)據(jù)中多種分布的能力。

          因此,微軟亞洲研究院的研究員們提出了 Temporal Routing Adaptor (TRA),來賦予已有模型學(xué)習(xí)多種分布的能力。具體而言,TRA 在給定骨干模型的基礎(chǔ)上,引入了一組 Predictors 來建模不同分布,和一個 Router 來根據(jù)樣本的規(guī)律 p(y_t│X_t) 將其分配到所屬的 Predictor 上進(jìn)行訓(xùn)練和推理。為了保證 Router 能夠預(yù)測出樣本的規(guī)律,研究員們設(shè)計并利用了兩種與 p(y_t│X_t) 關(guān)聯(lián)的信息作為其輸入:1) 利用骨干模型的隱層來表征 p(y ?_t |X_t),2) 利用Predictor的歷史預(yù)測偏差來表征 p(y_(<t)│X_(<t))。實驗表明,這兩種信息對 Router 有能力預(yù)測出樣本規(guī)律起到了重要作用。TRA 的兩個主要模塊和基于骨干模型的具體實現(xiàn)可以參考圖4。

          8.png

          圖4:TRA 結(jié)構(gòu)示意圖

          為了有效地訓(xùn)練 TRA 模型,另一個需要解決的問題是,如何保證分配到不同 Predictor 的樣本是屬于不同規(guī)律的。因此,研究員們基于最優(yōu)運(yùn)輸 (Optimal Transport) 設(shè)計了一個迭代優(yōu)化的算法。最優(yōu)運(yùn)輸被用來求解在分配的樣本滿足特定比例約束下,如何分配樣本能夠最小化整體預(yù)測偏差。求解得到的分配方案會用來更新對應(yīng)的 Predictor,并繼續(xù)下一輪迭代,直至收斂。

          9.png

          圖5:基于最優(yōu)運(yùn)輸將樣本分配到一組 Predictors

          實驗表明,TRA 可以穩(wěn)定提升之前在股****預(yù)測中表現(xiàn)最強(qiáng)的基準(zhǔn)模型如 Attention LSTM 和Transformer 的預(yù)測性能,并取得更高的投資收益(結(jié)果見表3)。

          10.png

          表3:TRA 模型相比于其他基準(zhǔn)模型在股****排序預(yù)測任務(wù)下的性能

          03 錨點(diǎn)知識圖生成:一種為新聞推薦提供推理的新范式

          11.png

          論文鏈接:

          https://www.microsoft.com/en-us/research/uploads/prod/2021/05/KDD2021-anchorkg.pdf 

          知識圖譜不僅可以用于提高推薦算法的準(zhǔn)確性,還可以為推薦提供推理(reasoning)的能力。然而在新聞場景中,現(xiàn)有的推薦推理方法存在一定的缺陷,例如計算成本高,只能用于排序;只能尋找單一路徑,不能很好的結(jié)合新聞文本信息等。 

          在本文中,微軟亞洲研究院的研究員們提出了一種新的基于知識圖譜的推理范式 AnchorKG,它的優(yōu)點(diǎn)有以下幾點(diǎn): 

          (1)可拓展性強(qiáng),支持大規(guī)模的通用知識圖譜;

          (2)能夠結(jié)合知識圖譜和文本內(nèi)容;

          (3)不局限于只提供單一解釋路徑;

          (4)能夠靈活地應(yīng)用于推薦的不同階段:召回和排序。

          對于每篇新聞文章,研究員們從知識圖譜中生成一個和這篇新聞內(nèi)容緊密相關(guān)的小規(guī)模子圖(Anchor KG)。這個子圖包含了出現(xiàn)在新聞中的重要實體,以及在知識圖譜中與這篇新聞緊密相關(guān)的信息。當(dāng)在進(jìn)行新聞間的推薦推理時,研究員們利用兩篇新聞 Anchor KG 的重合關(guān)系,就可以找出兩篇相關(guān)新聞間的推理路徑。

          為了得到 Anchor KG 的生成器,研究員們還提出了一種基于強(qiáng)化學(xué)習(xí)的框架,并用經(jīng)典的演員-評論家(actor-critic)算法進(jìn)行優(yōu)化,如圖7所示。生成器(即演員)學(xué)習(xí)動作策略函數(shù) ,它以狀態(tài)和可能的動作空間為條件,來計算動作的概率分布,同時使用多層感知器來建模演員網(wǎng)絡(luò)。評論家則通過估計 MDP 環(huán)境中的動作價值函數(shù),來評估動作好壞,并使用時間差異方法進(jìn)行訓(xùn)練。此外,為了更好地學(xué)習(xí)模型,研究員們設(shè)計了幾種訓(xùn)練技巧,包括:1)熱啟動訓(xùn)練;2)基于知識圖譜的負(fù)采樣;3)多任務(wù)學(xué)習(xí)。

          12.png

          圖6:基于強(qiáng)化學(xué)習(xí)的學(xué)習(xí)框架

          研究員們在兩個新聞數(shù)據(jù)集上驗證了本文提出模型的效果(如圖8所示),與多種基線方法相比,AnchorKG 不僅準(zhǔn)確率更高,而且還能提供高質(zhì)量的解釋路徑(見表4和表5)。

          13.png

          表4:不同模型的推薦準(zhǔn)確性比較 

          14.png

          表5:不同模型的推薦可解釋性比較

          15.png

          圖7:利用兩篇新聞的 AnchorKG 進(jìn)行推薦推理的樣例

          04 Table2Charts: 基于共享表格表征的圖表推薦

          16.png

          論文鏈接:

          https://arxiv.org/abs/2008.11015

          表格(table)是由一系列具有相同或相似屬性的多維數(shù)據(jù)組成的半結(jié)構(gòu)化數(shù)據(jù)。制作圖表(charts)是人們對表格內(nèi)容進(jìn)行理解和交流的一種重要方式。在制圖的過程中,人們常常會遇到不同的問題。一方面,從表格數(shù)據(jù)中抽取有意義的關(guān)系和模式需要一定的專業(yè)知識,想要更好地展現(xiàn)數(shù)據(jù)的特征,還需要挑選合適的圖表類型。另一方面,在辦公軟件中制作圖表,要經(jīng)過框選數(shù)據(jù)、類型選擇、參數(shù)選擇等一系列復(fù)雜的操作,不利于辦公效率的提升。因此,本文提出了 Table2Charts 模型,通過學(xué)習(xí)共享表格表征,以實現(xiàn)多種類型的圖表推薦。

          17.png

          圖8:Table2Charts 能推薦的多種圖表類型

          在現(xiàn)實生活中,由于圖表類型的多樣性以及表格內(nèi)容的豐富性,圖表推薦面臨著以下幾個挑戰(zhàn):1)分散模型成本高昂,為每種類型的圖表分別提供推薦模型,會降低推薦效率并成倍增加內(nèi)存開銷;2)數(shù)據(jù)不平衡,絕大部分表格都屬于四種主要類型,其它類型的數(shù)據(jù)非常稀少;3)表格整體理解,數(shù)據(jù)列的語義受到表頭、數(shù)值組合乃至其余數(shù)據(jù)列的共同影響,而正確理解數(shù)據(jù)列對于推薦決策至關(guān)重要。

          針對這些挑戰(zhàn),本文設(shè)計了共享的表格表征以及統(tǒng)一的圖表抽象方式。對于給定的表格,每個數(shù)據(jù)列被分別編碼成特征向量,并抽象為一個 field token。特征向量包含表頭文本的 embedding、數(shù)值的統(tǒng)計特征以及數(shù)據(jù)列類型和角色等多方面信息,以幫助編碼器準(zhǔn)確地理解數(shù)據(jù)列。同時,本文為不同的圖表類型設(shè)計了一套語法模板,使用固定的 command tokens 和可變的 field tokens 將圖表抽象為序列,將圖表推薦轉(zhuǎn)化為 table2sequence 形式的任務(wù)。

          18.png

          圖9:Table2Charts 框架

          在 Encoder-Decoder 框架的基礎(chǔ)上,本文采用了深度 Q 值網(wǎng)絡(luò)的思想,使用 next-token estimation 任務(wù)進(jìn)行訓(xùn)練。在推薦時,使用語法約束的 beam search 得到有序的圖表推薦結(jié)果。表格理解部分是一個統(tǒng)一的共享編碼器。對于不同類型的圖表推薦,模型分別訓(xùn)練不同的小型****,以應(yīng)對不同的需求場景。每個****由一個獨(dú)立的帶有 copy 機(jī)制的序列生成模塊構(gòu)成。

          19.png

          圖10:深度 Q 值網(wǎng)絡(luò)結(jié)構(gòu)

          本文使用不同的圖表數(shù)據(jù)進(jìn)行了兩類****的訓(xùn)練:1)采用所有數(shù)據(jù)訓(xùn)練得到 multi-type ****,能夠根據(jù)輸入的表格推薦合適類型的圖表,適用于從零開始的推薦場景;2)在共享編碼器的基礎(chǔ)上,采用單類型數(shù)據(jù)訓(xùn)練得到 single-type ****,適用于特定類型的圖表推薦場景。后者受益于從其他類型數(shù)據(jù)中遷移過來的表格理解知識,同時也保證了特定類型的圖表生成質(zhì)量。

          在實驗中,本文提出的 Table2Charts 在數(shù)據(jù)選擇與制圖設(shè)計兩個步驟的表現(xiàn),均大幅優(yōu)于現(xiàn)有的圖表推薦模型或工具。共享表格表征的遷移為所有類型的圖表推薦帶來了一致的提升,對于數(shù)據(jù)稀少的類型,提升效果尤為顯著。同時這也表明,共享編碼器確實學(xué)習(xí)到了通用的模式和特征。

          20.png

          表6:Multi-type 圖表推薦任務(wù)效果對比

          21.png

          表7:各模型推薦圖表人類評分

          22.png

          表8:Single-type 圖表推薦任務(wù)效果對比

          05 TUTA: 通用表格預(yù)訓(xùn)練的樹結(jié)構(gòu)Transformer

          23.png

          論文地址:

          https://arxiv.org/abs/2010.12537

          表格是一種非常重要和常見的半結(jié)構(gòu)化數(shù)據(jù),廣泛使用在文檔和網(wǎng)頁中。在收集的六千萬個文檔和網(wǎng)頁表格(包括超過二十億單元格)中,微軟亞洲研究院的研究員們首次對通用結(jié)構(gòu)的表格進(jìn)行了大規(guī)模的預(yù)訓(xùn)練。并且在表格結(jié)構(gòu)理解的六個下游數(shù)據(jù)集上,也都取得 SOTA 的效果。

          理解表格面臨著各種挑戰(zhàn),需要綜合理解語義、空間和結(jié)構(gòu),如:需要在簡短的單元格文本里來捕捉表格里的語義;需要在二維的表格空間中進(jìn)行理解;需要對表格的層級信息理解。

          24.png

          圖11:表格結(jié)構(gòu)示例

          Transformer 在自然語言的預(yù)訓(xùn)練上已經(jīng)取得了較好的效果。但是,針對通用表格位置、結(jié)構(gòu)建模困難等一系列問題,本文相應(yīng)地提出了 Tree-based Transformer。同時,研究員們還設(shè)計了二維樹來建模單元格的空間和層級,并對單元格的二維樹坐標(biāo)和單元格間的二維樹距離進(jìn)行了量化,進(jìn)一步設(shè)計了基于二維樹結(jié)構(gòu)的注意力機(jī)制。

          25.png

          圖12:基于二維樹結(jié)構(gòu)的位置編碼和距離度量

          在表格預(yù)訓(xùn)練任務(wù)上,為了可以學(xué)習(xí)到不同層級的表征,且更好的應(yīng)用到不同級別的下游任務(wù)上,本文除了使用經(jīng)典的 token MLM 任務(wù),還進(jìn)一步設(shè)計了 cell-level cloze 的任務(wù)和 table-level 的 context retrieval 任務(wù)。

          26.png

          圖13:token、cell 和 table 粒度上的表格預(yù)訓(xùn)練任務(wù)

          實驗表明,模型在表格結(jié)構(gòu)理解(表格類型識別和單元格類型識別)的六個下游數(shù)據(jù)集上均取得了最好的效果。消融實驗也證明了利用樹結(jié)構(gòu)對理解通用結(jié)構(gòu)表格的有效性。同時,結(jié)合三個預(yù)訓(xùn)練任務(wù),也有助于提高下游任務(wù)的表現(xiàn)。

          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉