解決神經(jīng)網(wǎng)絡(luò)的百年難題,MIT新模型Liquid CfC讓模擬大腦動(dòng)力學(xué)成為可能
隨著神經(jīng)元數(shù)量的增加,人工智能模型的訓(xùn)練和計(jì)算成本都變得非常高昂。有沒(méi)有一種模型能夠既實(shí)現(xiàn)類(lèi)似于人腦的神經(jīng)模擬,又速度快成本低呢?
在自動(dòng)駕駛等許多重要應(yīng)用中,數(shù)據(jù)都是實(shí)時(shí)動(dòng)態(tài)的,并且包含一些意外情況。為了高效應(yīng)對(duì)實(shí)時(shí)數(shù)據(jù),去年 MIT 的研究者受生物神經(jīng)元啟發(fā)設(shè)計(jì)了一種新型「Liquid」神經(jīng)網(wǎng)絡(luò),其不僅能在訓(xùn)練階段學(xué)習(xí),而且還能持續(xù)不斷地適應(yīng)。之所以將這種靈活的算法命名為「Liquid」神經(jīng)網(wǎng)絡(luò),是因?yàn)槠淠芟瘛敢后w」一樣改變其底層的數(shù)學(xué)方程以持續(xù)適應(yīng)新的輸入數(shù)據(jù)。
我們可以將「liquid」神經(jīng)網(wǎng)絡(luò)理解為是一類(lèi)具有靈活性、魯棒性的機(jī)器學(xué)習(xí)模型,它可以在工作中學(xué)習(xí),并適應(yīng)不斷變化的外部條件,可用于駕駛、飛行等安全性至關(guān)重要的任務(wù)。
所謂靈活性,是指「liquid」神經(jīng)網(wǎng)絡(luò)對(duì)多種任務(wù)都適合:例如對(duì)涉及時(shí)間序列的任務(wù)能夠做出更好的決策,其中包括對(duì)大腦和心臟的監(jiān)測(cè)、天氣和股****價(jià)格的預(yù)測(cè)等。
但隨著神經(jīng)元和突觸數(shù)量的增加,模型的計(jì)算成本劇增,一些復(fù)雜的數(shù)學(xué)問(wèn)題需要計(jì)算大量的步驟才能得到最終的解決方案。高昂的成本成為高性能神經(jīng)網(wǎng)絡(luò)面對(duì)的重要挑戰(zhàn)。
現(xiàn)在,MIT 的「liquid」神經(jīng)網(wǎng)絡(luò)團(tuán)隊(duì)發(fā)現(xiàn)了緩解這一瓶頸的方法,即求解兩個(gè)神經(jīng)元通過(guò)突觸相互作用背后的微分方程。基于此,他們提出了一種快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有與 liquid 神經(jīng)網(wǎng)絡(luò)相同的特征——靈活性、因果性、魯棒性和可解釋性——但速度更快,且可擴(kuò)展。
論文地址:https://www.nature.com/articles/s42256-022-00556-7
代碼地址:https://github.com/raminmh/CfC
論文作者之一、MIT 的教授 Daniela Rus 介紹道:「新機(jī)器學(xué)習(xí)模型 CfC 用一個(gè)閉合的(closed form)近似形式取代了定義神經(jīng)元計(jì)算的微分方程,同時(shí)保留了 liquid 網(wǎng)絡(luò)的特性,而不需要數(shù)值積分。」CfC 模型因此具有因果性、緊湊性、可解釋性,并且可以高效地進(jìn)行訓(xùn)練和預(yù)測(cè)。
這種 closed-form 的近似方法讓該研究成功求解了描述神經(jīng)元和突觸相互作用的微分方程,而這是自 1907 年以來(lái)首次攻克這一數(shù)學(xué)難題,將讓神經(jīng)網(wǎng)絡(luò)的研究獲得質(zhì)的飛躍。論文第一作者、MIT CSAIL 研究科學(xué)家 Ramin Hasani 也在推特上激動(dòng)地發(fā)文稱(chēng)解決了這個(gè)百年難題。
CfC 模型最大的優(yōu)點(diǎn)也是靈活性,可用于需要長(zhǎng)期洞察數(shù)據(jù)的任務(wù)。相比于大多數(shù)固定的傳統(tǒng)模型,CfC 緊湊且適應(yīng)性強(qiáng)。
在模型性能方面,CfC 在一系列任務(wù)上都優(yōu)于當(dāng)前的 SOTA 模型,在通過(guò)運(yùn)動(dòng)傳感器識(shí)別人類(lèi)動(dòng)作、模擬步行機(jī)器人的物理動(dòng)力學(xué)建模以及基于事件的序列圖像處理等多個(gè)任務(wù)上都具有更高的處理速度和性能。
下圖是與其他幾種經(jīng)典模型的性能比較結(jié)果:
與基于微分方程的對(duì)應(yīng)模型相比,CfC 在訓(xùn)練和推理方面速度要快 1 到 5 個(gè)數(shù)量級(jí)。更重要的是,與基于普通微分方程的連續(xù)網(wǎng)絡(luò)相比,CfC 可以很好地進(jìn)行擴(kuò)展。最后,由于 CfC 模型源自 liquid 網(wǎng)絡(luò),與先進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,CfC 在時(shí)間序列建模方面表現(xiàn)出良好的性能。
微分方程使我們能夠計(jì)算事件在演化過(guò)程中的狀態(tài),使用 CfC 神經(jīng)網(wǎng)絡(luò),人們可以在任意時(shí)間計(jì)算這個(gè)方程。由于不需要一步步求解微分方程,因此計(jì)算速度也快得多。
想象一下,如果一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)以安裝在汽車(chē)上的攝像頭接收數(shù)據(jù)作為輸入,以汽車(chē)的轉(zhuǎn)向角為輸出,那么自動(dòng)駕駛領(lǐng)域的一些問(wèn)題就迎刃而解。
2020 年,MIT 的團(tuán)隊(duì)就通過(guò)使用具有 19 個(gè)節(jié)點(diǎn)的「liquid」神經(jīng)網(wǎng)絡(luò)解決了這個(gè)問(wèn)題——以 19 個(gè)神經(jīng)元加上一個(gè)小型感知模塊來(lái)驅(qū)動(dòng)汽車(chē)。以少量神經(jīng)元解決復(fù)雜問(wèn)題,這意味著「liquid」神經(jīng)網(wǎng)絡(luò)會(huì)速度更快,計(jì)算成本更低。
從這個(gè)角度講,closed-form 微分方程對(duì)推進(jìn)人工智能系統(tǒng)的研究具有深遠(yuǎn)的影響?!府?dāng)我們對(duì)神經(jīng)元和突觸的通信進(jìn)行 closed-form 的描述時(shí),我們可以構(gòu)建具有數(shù)十億個(gè)細(xì)胞的大腦計(jì)算模型,由于神經(jīng)科學(xué)模型的計(jì)算復(fù)雜性很高,這種能力在今天是不可能的。而 closed-form 的方程有助于實(shí)現(xiàn)這種宏大的模擬,為我們理解智能開(kāi)辟了新的研究途徑」,Ramin Hasani 說(shuō)道。
此外,已有研究表明 Liquid CfC 模型可以在一個(gè)環(huán)境中從視覺(jué)輸入中學(xué)習(xí)任務(wù),并將其學(xué)到的技能遷移到一個(gè)全新的環(huán)境中,而無(wú)需額外的訓(xùn)練。這被稱(chēng)為分布外泛化,是人工智能研究最基本的挑戰(zhàn)之一。
我們來(lái)看一下 CfC 在一些具體任務(wù)上的實(shí)驗(yàn)結(jié)果。
在一項(xiàng)醫(yī)學(xué)預(yù)測(cè)任務(wù)中,CfC 在 8000 名患者的樣本中預(yù)測(cè)速度提高了 220 倍。
在醫(yī)學(xué)數(shù)據(jù)集 PhysioNet 上各模型執(zhí)行預(yù)測(cè)任務(wù)的性能。
在情感分析方面,該研究在互聯(lián)網(wǎng)電影數(shù)據(jù)集 IMDB 上測(cè)試了 CfC 模型和其他一些經(jīng)典模型的性能,結(jié)果如下:
該研究還讓幾種模型模擬步行機(jī)器人的物理動(dòng)力學(xué),其中 CfC 模型的性能顯著優(yōu)于其他基線模型:
對(duì)于這項(xiàng)解決神經(jīng)網(wǎng)絡(luò)難題的研究,波音子公司 Aurora Flight Sciences 的人工智能和機(jī)器學(xué)習(xí)小組負(fù)責(zé)人 Sildomar Monteiro 博士評(píng)論道:「近來(lái)神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如神經(jīng) ODE 和「liquid」神經(jīng)網(wǎng)絡(luò))具有一種特殊的隱藏層,這種隱藏層由表示無(wú)限潛在狀態(tài)的特定動(dòng)力系統(tǒng)組成。這些隱式定義的模型獲得了 SOTA 性能,并且所需的參數(shù)比傳統(tǒng)架構(gòu)少得多。然而,由于訓(xùn)練和推理所需的高計(jì)算成本,它們的實(shí)際采用受到限制。而 MIT 的新研究顯著提高了這類(lèi)神經(jīng)網(wǎng)絡(luò)的計(jì)算效率,這將被廣泛應(yīng)用于與安全有關(guān)的現(xiàn)實(shí)任務(wù)中?!?/span>
參考鏈接:
https://twitter.com/search?q=Ramin%20Hasani&src=typed_query
https://www.csail.mit.edu/news/solving-brain-dynamics-gives-rise-flexible-machine-learning-models
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。