NeurIPS 2022 | 賦能產(chǎn)業(yè)界的人工智能研究新趨勢
在本屆大會中,微軟亞洲研究院也有諸多論文入選,內(nèi)容主要涵蓋人工智能五大熱點話題:人工智能走向大一統(tǒng)、計算機理論、賦能產(chǎn)業(yè)界的人工智能、負責任的人工智能、人工智能賦能內(nèi)容與設計生成。上期,我們速覽了人工智能大一統(tǒng)與理論研究的最新進展。本期為大家?guī)淼氖侨斯ぶ悄苜x能產(chǎn)業(yè)界話題下的5篇論文。
參與文末投****,為你最感興趣的論文投上一****!得****數(shù)前列的論文將于近期在B站“微軟中國視頻中心”賬號直播分享!
01
自動強化學習輔助損失函數(shù)設計
論文鏈接:
https://www.microsoft.com/en-us/research/publication/reinforcement-learning-with-automated-auxiliary-loss-search/
項目主頁:
https://seqml.github.io/a2ls/
強化學習算法通常面臨稀疏獎勵、高維輸入情況下優(yōu)化穩(wěn)定性較差等訓練問題。為此,研究者們根據(jù)經(jīng)驗提出了多種輔助損失函數(shù),以幫助強化學習進行訓練。然而,這些人工設計的輔助損失函數(shù)十分依賴人類知識,且設計過程耗時費力;同時,由于未考慮強化學習的原本優(yōu)化目標,這些損失函數(shù)在函數(shù)空間中都屬于次優(yōu)解。
為了解決這些問題,微軟亞洲研究院的研究員們提出了自動強化學習的框架 A2LS,在包含現(xiàn)有人工設計的損失函數(shù)的空間(復雜度約為7.5×10^20)中,使用基于元學習的自動化算法自動搜索更優(yōu)的輔助損失函數(shù)。算法在三個隨機選擇的機器人訓練環(huán)境中經(jīng)過4至7輪的搜索后,找到了一個較優(yōu)的輔助損失函數(shù) A2-winner。廣泛的實驗結(jié)果證明,該輔助損失函數(shù)不僅能大幅提升強化學習的訓練效果,而且顯著優(yōu)于人工設計的輔助函數(shù),其在多種不同的場景下具有優(yōu)秀的遷移泛化性,包括從未在訓練環(huán)境中見過的:(1)基于圖像的環(huán)境;(2)不同的場景例如游戲場景;(3)不同的狀態(tài)類型;(4)不同的策略網(wǎng)絡結(jié)構(gòu);(5)部分狀態(tài)可見(partial observable)的場景。論文原文中還提供了更多視角的對比分析,表明算法的特點與搜索結(jié)果的優(yōu)越性。
圖1:自動強化學習算法框架(上);搜索過程可視化圖(下)
02
自提升離線強化學習
論文鏈接:
https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/
項目主頁:
https://seqml.github.io/bootorl/
隨著強化學習在真實世界場景中的需求逐漸增大,作為一種新的強化學習訓練范式,離線強化學習(offline reinforcement learning)受到了越來越多的關(guān)注。離線強化學習利用預先保存的智能體與環(huán)境的交互數(shù)據(jù)進行離線訓練,進而獲得可用于在線真實環(huán)境的智能體。目前較受關(guān)注的一個離線強化學習技術(shù)分支是引入 Transformer 模型做序列建模,并取得了良好的成效。
現(xiàn)有的離線強化學習數(shù)據(jù)存在兩個問題,第一是覆蓋率的問題,主要由于采樣獲得這些離線數(shù)據(jù)的智能體可能是任意的智能體,難以保證離線數(shù)據(jù)對強化學習真實的數(shù)據(jù)分布具備良好的覆蓋;第二是訓練數(shù)據(jù)量的問題,相比較自然語言處理預訓練模型動輒上百萬文本語句的語料庫相比,離線強化學習的訓練數(shù)據(jù)量一般較小。
根據(jù)目前 Transformer 模型序列建模與生成的特性,微軟亞洲研究院的研究員們提出了自提升的離線強化學習訓練框架 Bootstrapped Transformer(簡稱BooT)以解決上述問題。BooT 方法建模了離線訓練數(shù)據(jù)的分布并同時生成了新的符合分布的數(shù)據(jù)以反哺訓練過程。在通用的離線強化學習基準中,BooT 顯著提升了效果,甚至超越了使用80倍數(shù)據(jù)量的其他預訓練方案;量化與可視分析均表明 BooT 生成的數(shù)據(jù)更加符合原始數(shù)據(jù)分布,并能彌補原有離線訓練數(shù)據(jù)的不足。
圖2:BooT 序列生成過程(上);BooT 序列生成結(jié)果與分布降維可視化(下)
03
面向具有分段穩(wěn)定上下文的非平穩(wěn)環(huán)境的自適應深度強化學習
論文鏈接:
https://www.microsoft.com/en-us/research/publication/an-adaptive-deep-rl-method-for-non-stationary-environments-with-piecewise-stable-context/
在現(xiàn)實生活中,智能體處在不斷變化的環(huán)境中。這是阻礙強化學習算法成功應用的原因之一。在很多現(xiàn)實問題中,環(huán)境(例如網(wǎng)絡可用帶寬、機器人所處地形等)會在一段隨機的時間內(nèi)保持不變,隨后以不可預測的方式發(fā)生突然跳變。這些環(huán)境變量往往不可觀測。因此,智能體需要及時檢測到這種變化,并快速調(diào)整自身策略以適應這種變化。然而現(xiàn)有工作的建模方式都不能很好地解決當前問題。
為此,微軟亞洲研究院的研究員們提出了一種新的 Latent Situational MDP (LS-MDP),引入了環(huán)境變量 C 以及環(huán)境變量結(jié)構(gòu) G 來細致地刻畫問題的結(jié)構(gòu),并提出了 SeCBAD(segmented context belief augmented deep RL)算法,以聯(lián)合推斷環(huán)境變量結(jié)構(gòu)及內(nèi)容的方式,來完成對環(huán)境變化的快速檢測。同時,研究員們還使用推斷的環(huán)境變量 belief 對 state 進行增廣,從而使得智能體可以在收集更多信息、與利用已有信息最大化回報這兩種策略間達到最優(yōu)權(quán)衡。在機器人控制、網(wǎng)絡帶寬控制等應用上對該算法的實驗結(jié)果表明 SeCBAD 能夠顯著提升性能。
圖3:SeCBAD 算法框架圖
04
基于多模態(tài)時序?qū)Ρ葘W習的長視頻-語言預訓練
論文鏈接:
https://www.microsoft.com/en-us/research/publication/long-form-video-language-pre-training-with-multimodal-temporal-contrastive-learning/
項目主頁:
https://github.com/microsoft/XPretrain
以往對視頻-語言預訓練的研究主要集中在短視頻(即30秒內(nèi)的視頻)和句子上,忽略了真實場景中更加常見的長視頻理解。直接從長視頻和語言中學習表征可以幫助許多長視頻-語言理解任務的發(fā)展,但遠程關(guān)系建模的難度和更多幀引起的計算負擔極具挑戰(zhàn)性。
在本文中,研究員們提出了 Long-Form VIdeo-LAnguage 預訓練模型(LF-VILA),并在基于視頻文本數(shù)據(jù)集 HD-VILA-100M 構(gòu)建的大規(guī)模長視頻和段落數(shù)據(jù)集 LF-VILA-8M 上進行了訓練。為了有效地捕捉豐富的時序動態(tài),并以有效的端到端的方式更好地對齊視頻和語言, LF-VILA 模型中引入了兩種新設計。研究員們首先提出了一種多模態(tài)時序?qū)Ρ葘W習(MTC)損失,通過鼓勵長視頻和段落之間的細粒度對齊來學習不同模態(tài)之間的時序關(guān)系。其次,提出了一種分層時間窗口注意力(HTWA)機制,以有效捕獲長期依賴關(guān)系,同時降低 Transformer 的計算開銷。
在7個下游長視頻語言理解任務(包括段落到視頻檢索和長視頻問答)上對預訓練的 LF-VILA 模型進的驗證表明,LF-VILA 取得了最好的性能。具體而言,LF-VILA 在 ActivityNet 段落到視頻檢索任務上取得了16.1%的相對改進,在 How2QA 任務上取得了2.4%的相對改進。LF-VILA 的代碼、數(shù)據(jù)集和預訓練的模型將很快在官方項目主頁上發(fā)布,歡迎關(guān)注。
圖4:LF-VILA 預訓練模型框架圖(a)與 MTC 方法示意圖(b)
05
面向多任務分組學習的元學習框架
論文鏈接:
https://openreview.net/forum?id=Rqe-fJQtExY
多任務學習范式被廣泛應用于各種各樣的機器學習場景中,包括語言理解、視覺識別、機器人控制、****物發(fā)現(xiàn)、臨床治療、能源管理等等。然而,如何有效地選擇共同訓練的任務組合卻是一個極有挑戰(zhàn)性的問題,這里有兩方面的原因:1)任務組合的數(shù)量隨著任務數(shù)量的增加而成指數(shù)級別地增長;2)簡單地選擇一種分組可能會導致某些任務出現(xiàn)嚴重的性能衰退?,F(xiàn)有的研究工作要么聚焦于給定任務組合情況下的優(yōu)化方法和模型架構(gòu),要么采用一些啟發(fā)式的方法來應對指數(shù)增長的任務組合(比如:將多個任務組合在一起的收益,近似均攤為其兩兩組合的收益之和)。諸多新進多任務學習研究都認為在任務數(shù)量較多時,充分探索這個指數(shù)級別增長的任務組合的空間是幾乎不可能完成的任務。
為了應對任務組合爆炸增長的挑戰(zhàn),在本文中,研究員們?yōu)槎嗳蝿辗纸M學習提出了一套元學習框架。本文的核心觀測在于盡管任務組合的數(shù)量隨著任務的數(shù)量指數(shù)增長,但任務組合與在其上做多任務學習帶來的增益之間的關(guān)系卻存在于一個低維的流形空間中?;诖擞^測,本文定義了一個任務組合上的元學習問題:給定一個任務組合,預測其多任務學習相對于單任務學習所帶來的增益。在此元學習問題的基礎上,研究員們構(gòu)建了一個元模型并開發(fā)了一套逐步選擇元學習樣本的訓練方法?;诖朔椒ǎ恍枰M行有限次的多任務學習與評估,即可獲得一個有效的元模型來準確地預測出所有未知任務組合上多任務學習的增益,進而實現(xiàn)有效的任務分組。
值得注意的是,在視覺、能源、醫(yī)療等多種多任務學習場景下驗證了以上框架后,一個大規(guī)模的實驗評測(27個臨床醫(yī)療預測任務,超過10億的任務組合)表明:在幾乎同等的計算開銷下,相對于現(xiàn)有的最佳方案,本文所提出的元學習方法獲得了幾乎翻倍的性能提升。
圖5:元學習框架圖
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。