人工智能推動(dòng)神經(jīng)網(wǎng)絡(luò)技術(shù)開發(fā)熱潮
神經(jīng)網(wǎng)絡(luò)幾乎成了人工智能的代名詞,正在被應(yīng)用于各種領(lǐng)域,包括影像識(shí)別、語音識(shí)別、自然語言處理、自動(dòng)駕駛、訊號(hào)分析、大數(shù)據(jù)分析和游戲。
這是一個(gè)瞬息萬變的世界,每年都有新的神經(jīng)網(wǎng)絡(luò)模型被更新,大量的開放原始碼到處流傳,專用人工智能芯片開發(fā)企業(yè)更是如雨后春筍般涌現(xiàn)。
因此全球研究人員正透過模仿人類大腦組織方式,積極開發(fā)類神經(jīng)網(wǎng)絡(luò)技術(shù),雖然一直有突破性的進(jìn)展,但是現(xiàn)階段的神經(jīng)網(wǎng)絡(luò),還是缺乏實(shí)時(shí)變化的靈活性,以及難以快速適應(yīng)陌生的狀況,使得神經(jīng)網(wǎng)絡(luò)技術(shù)普及實(shí)用化的進(jìn)程還是相當(dāng)遙遠(yuǎn)。
根據(jù)不同應(yīng)用開發(fā)出的神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)是模仿人類神經(jīng)細(xì)胞網(wǎng)絡(luò)的模型,由輸入層、中間層(隱藏層)和輸出層的神經(jīng)元,以及連接它們的突觸組成。而機(jī)器學(xué)習(xí)就是在大量數(shù)據(jù)的基礎(chǔ)上,自動(dòng)構(gòu)建連接和它們的權(quán)重。
深度學(xué)習(xí)是指,使用具有多個(gè)中間層的神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)。深度學(xué)習(xí)使計(jì)算機(jī)能夠提取自己的特征量,作為發(fā)現(xiàn)模式和規(guī)則時(shí)應(yīng)該注意些什么,同時(shí)也能進(jìn)行識(shí)別和其他作業(yè),因此促進(jìn)了人工智能熱潮。
模型根據(jù)應(yīng)用的不同,又分為影像識(shí)別的深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、語音識(shí)別的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和自然語言處理的Transformer。模型可以在不同的應(yīng)用中進(jìn)行整合,也可為每個(gè)應(yīng)用開發(fā)出新模型。
深度神經(jīng)網(wǎng)絡(luò)(DNN)
DNN的隱藏層由一個(gè)卷積層和一個(gè)池化層組成。卷積層利用過濾上一層附近的節(jié)點(diǎn),而可得到一個(gè)特征圖。池化層進(jìn)一步縮小卷積層輸出的特征圖,得到新的特征圖,同時(shí)可在保持影像特性的同時(shí),可以極大地壓縮影像中的信息量。例如,在2012年ILSVRC影像識(shí)別比賽中,以壓倒性的優(yōu)勢獲勝,采用八層結(jié)構(gòu)的AlexNet就引發(fā)了深度學(xué)習(xí)的熱潮,隨后經(jīng)過改進(jìn)而來的ResNet,其層數(shù)就達(dá)到了152層。因此,透過導(dǎo)入簡化處理塊的Residual模塊,即使是在高層數(shù)的結(jié)構(gòu)下,也能達(dá)到高效學(xué)習(xí)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
具有自我回饋的遞歸網(wǎng)絡(luò)RNN,是一個(gè)適合處理包括語音波形、視訊和文本文件(字符串)等等時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。例如神經(jīng)網(wǎng)絡(luò)中為了處理如語音等,可變長時(shí)間序列數(shù)據(jù),將隱藏層的值再次回饋輸入到隱藏層。當(dāng)存取很久以前的數(shù)據(jù),或出現(xiàn)運(yùn)算量爆炸等問題時(shí),可透過應(yīng)用于自然語言處理的LSTM(長短時(shí)記憶)來解決。
Transformer
在自然語言處理方面,既不是透過RNN,也不是CNN,而是據(jù)由深度學(xué)習(xí)的Transformer取得了重大進(jìn)展:這是一個(gè)只使用Attention(表示要注意句子中哪些單詞的分?jǐn)?shù))的Encoder-Decoder模型,也可透過并行化來減少學(xué)習(xí)時(shí)間。在后續(xù)的技術(shù)改進(jìn)下也相繼開發(fā)出的BERT、GPT-2、T5等,甚至已超過了人類的語言處理能力。
而Conformer是一個(gè)結(jié)合CNN的模型,可被應(yīng)用于語音識(shí)別,其能力已經(jīng)超過RNN的最高準(zhǔn)確性。Conformer結(jié)合了善于提取長時(shí)空依賴關(guān)系的Transformer,和善于提取局部關(guān)系的CNN。此外,一個(gè)新的影像識(shí)別模型-Vision Transformer也被開發(fā)出來,在進(jìn)行影像識(shí)別時(shí),所需要的運(yùn)算資源比CNN少更少。
大型數(shù)據(jù)處理業(yè)者相爭投入開發(fā)AI芯片
神經(jīng)網(wǎng)絡(luò)中的訊號(hào)處理,相當(dāng)于將神經(jīng)元乘以權(quán)重的數(shù)值加在一起,再透過高速運(yùn)算乘積之和的操作來模仿大腦行為(高速積和加速器)。最近的主流配置是盡可能多鋪設(shè)必要數(shù)量的圖磚(Tile)來進(jìn)行AI運(yùn)算,例如,一個(gè)圖磚被用于終端傳感器控制,4-16個(gè)圖磚用于中等規(guī)模的邊緣處理,64個(gè)或更多圖磚用于數(shù)據(jù)中心等服務(wù)器。
人工智能芯片的功能大致可分為推理和學(xué)習(xí)。兩者都需要相同的高速乘積運(yùn)算,但與推理相比,學(xué)習(xí)需要進(jìn)行大量的乘積和運(yùn)算,因此各大數(shù)據(jù)處理業(yè)者正積極投入這方面的研發(fā),例如,Google目前正積極開發(fā)TPU來作為本身數(shù)據(jù)中心的AI芯片。第一代(2017年)有8位定點(diǎn)操作,只能用于推理,但第二代有16位浮點(diǎn)運(yùn)算,則可以應(yīng)用在學(xué)習(xí)。接下來第三代的性能則是120Tops @ 250W,最新的第四代載板設(shè)計(jì)了4顆TPU,且采用液體冷卻,指令周期更是上一代的2.7倍。這些電路板被安裝在一個(gè)個(gè)機(jī)柜內(nèi),然后通過高速傳輸線相互連接。
用于推理的人工智能芯片要求體積小、功耗低和實(shí)時(shí)處理。例如,Gyrfalco銷售一種形狀像USB隨身碟的AI棒。采用的AI芯片是一款具有矩陣處理引擎,利用PIM(內(nèi)存中處理器)技術(shù)來進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的計(jì)算處理,這個(gè)架構(gòu)可降低與內(nèi)存和計(jì)算電路之間的數(shù)據(jù)存取的功耗,芯片內(nèi)部有大約28000個(gè)節(jié)點(diǎn)和10M bytes的內(nèi)存,據(jù)稱能夠?qū)⑼ㄓ媚P退璧乃行阅芏寄苷系叫酒小?br/>
NTT與東大合作開發(fā)新型類腦學(xué)習(xí)算法
對(duì)于深度神經(jīng)網(wǎng)絡(luò)的運(yùn)算,日本NTT與東京大學(xué)合作下,開發(fā)了一種不需要準(zhǔn)確掌握物理系統(tǒng)信息,適用于物理神經(jīng)網(wǎng)絡(luò)的新算法-「擴(kuò)展DFA(Detrended Fluctuation Analysis)」。
圖一A是這種算法的概況和結(jié)果的定位,這是基于深入研究了一種名為直接回饋排列法的學(xué)習(xí)算法,是將反向傳播算法(Back Propagation;BP)修改為在大腦信息處理更容易實(shí)現(xiàn)的形式,并將其擴(kuò)展到可在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)。
這個(gè)方法是將神經(jīng)網(wǎng)絡(luò)最后一層的輸出與所需輸出訊號(hào)(誤差訊號(hào))之間的差值,透過隨機(jī)元素的矩陣的線性變換來更新學(xué)習(xí)參數(shù)。運(yùn)算過程不需要測量物理系統(tǒng)的狀態(tài),也不需要像BP法需要利用微分響應(yīng)的物理模擬進(jìn)行近似運(yùn)算。
此外,這個(gè)運(yùn)算可以在包括光路等物理系統(tǒng)上執(zhí)行,除了可以在物理系統(tǒng)上有效地運(yùn)算推理,還可以進(jìn)行學(xué)習(xí)。這種新的學(xué)習(xí)方法不僅適用于物理實(shí)現(xiàn)中實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型,也適用于各種機(jī)器學(xué)習(xí)模型,包括實(shí)際用于機(jī)器翻譯和其他應(yīng)用的高級(jí)深度神經(jīng)網(wǎng)絡(luò)模型。
因此NTT與東京大學(xué)構(gòu)建了一個(gè)光學(xué)神經(jīng)網(wǎng)絡(luò)(圖一 B),證明了以前難以進(jìn)行的光學(xué)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),可以利用光學(xué)計(jì)算輔助推理和學(xué)習(xí)運(yùn)算的可行性。這一成果將解決人工智能的計(jì)算時(shí),功耗和計(jì)算時(shí)間增加的問題。
圖一 : 物理系統(tǒng)的計(jì)算被納入學(xué)習(xí)部分來提高效率;以及實(shí)際設(shè)備應(yīng)用的光學(xué)神經(jīng)網(wǎng)絡(luò)。(source:日本NTT;作者整理)
適用于物理神經(jīng)網(wǎng)絡(luò)的擴(kuò)展DFA法
DFA法是受到大腦信息處理的啟發(fā),因而進(jìn)一步擴(kuò)展為適合在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)的形式。如圖二A所示,傳統(tǒng)的DFA法是透過隨機(jī)矩陣對(duì)最后一層的誤差,進(jìn)行線性變換來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí);盡管比BP法更適用于物理神經(jīng)網(wǎng)絡(luò),但仍然需要計(jì)算物理神經(jīng)網(wǎng)絡(luò)時(shí),使用的非線性變換及其導(dǎo)數(shù)。
而NTT與東大擴(kuò)展了DFA法技術(shù),使這部分可以由一個(gè)任意的非線性函數(shù)代替。這完全省去了對(duì)物理系統(tǒng)的狀態(tài)測量、基于微分響應(yīng)的物理模擬的近似值,以及基于這些近似值的順序反向傳播演算。學(xué)習(xí)過程已被大幅度簡化,實(shí)現(xiàn)了用物理神經(jīng)網(wǎng)絡(luò)幾乎不可能的學(xué)習(xí)。此外在對(duì)各種深度學(xué)習(xí)模型的適用性應(yīng)用于各種深度學(xué)習(xí)模型時(shí),也可以適用于廣泛的深度神經(jīng)網(wǎng)絡(luò)模型,包括從實(shí)際用于影像識(shí)別,和其他應(yīng)用的高級(jí)模型(圖二B)。
圖二 : A現(xiàn)有和新開發(fā)的學(xué)習(xí)方法概述;B各種模型的基準(zhǔn)檢驗(yàn)結(jié)果。(source:日本NTT;作者整理)
圖三A是使用構(gòu)建系統(tǒng)對(duì)圖像處理基準(zhǔn)任務(wù)性能的比較結(jié)果,光學(xué)神經(jīng)網(wǎng)絡(luò)可達(dá)到最高性能。圖三B則是顯示了每單位影像的學(xué)習(xí)時(shí)間對(duì)神經(jīng)元數(shù)量的依賴性。在小規(guī)模網(wǎng)絡(luò)模型的情況下,速率決定了信息傳輸?shù)焦鈱W(xué)硬件的處理時(shí)間,因此效果不如光學(xué)計(jì)算的計(jì)算加速效果大。
但是隨著神經(jīng)元數(shù)量的增加,可以發(fā)現(xiàn)光學(xué)神經(jīng)網(wǎng)絡(luò)計(jì)算在指令周期上比傳統(tǒng)的數(shù)字電子計(jì)算更有優(yōu)勢。此外,由于人工智能運(yùn)算的功耗,是由效率和計(jì)算時(shí)間的積和所決定的,因此加速計(jì)算有助于降低功耗。
圖三 : A使用光學(xué)神經(jīng)網(wǎng)絡(luò)進(jìn)行影像辨識(shí)測試(手寫字符辨識(shí)、衣服影像辨識(shí);B 每單位影像的運(yùn)算時(shí)間對(duì)神經(jīng)元數(shù)量的依賴性。(source:日本NTT;作者整理)
靈感來自于線蟲的液體神經(jīng)網(wǎng)絡(luò)技術(shù)
2020年,由麻省理工學(xué)院Ramin Hasani和Matthias Lechner所領(lǐng)導(dǎo)的一個(gè)研究小組,推出了一種液體神經(jīng)網(wǎng)絡(luò)(Liquid Neural Network)的新形態(tài)神經(jīng)網(wǎng)絡(luò),其靈感來自微小的線蟲。這項(xiàng)技術(shù)是以模仿具有細(xì)長的線狀身體的「線性動(dòng)物」為參考基礎(chǔ),來開發(fā)出神經(jīng)網(wǎng)絡(luò)技術(shù),達(dá)到前所未有的速度和靈活性,來實(shí)現(xiàn)「質(zhì)」的跨越性進(jìn)步,足以在某些應(yīng)用中取代傳統(tǒng)網(wǎng)絡(luò)。
據(jù)加州大學(xué)伯克利分校的機(jī)器人工程師Ken Goldberg表示,根據(jù)實(shí)驗(yàn)結(jié)果顯示,比起需要透過隨時(shí)間變化,來進(jìn)行建立模型的「連續(xù)時(shí)間神經(jīng)網(wǎng)絡(luò)」,這款「液體神經(jīng)網(wǎng)絡(luò)技術(shù)」,要來得更快、更準(zhǔn)確(圖四)。
圖四 : 麻省理工學(xué)院Ramin Hasani和Matthias Lechner開發(fā)出新形態(tài)的液體神經(jīng)網(wǎng)絡(luò)。(source:麻省理工學(xué)院Ramin Hasani博士)
Hasani和Lechner在思考如何能建立出一個(gè)夠靈活,且能快速適應(yīng)新狀況的反應(yīng)性神經(jīng)網(wǎng)絡(luò)時(shí),發(fā)現(xiàn)線蟲是一個(gè)非理想可參考的生物體。線蟲是少數(shù)具有完全反射的神經(jīng)系統(tǒng)的生物之一,可以透過一個(gè)大約1mm長的神經(jīng)系統(tǒng),來完成一系列復(fù)雜的行為,包括遷移、覓食、睡眠、交配,甚至從經(jīng)驗(yàn)中不斷的學(xué)習(xí),而且在現(xiàn)實(shí)世界中,線蟲無論在任何環(huán)境或狀況下都具有相當(dāng)優(yōu)秀的適應(yīng)能力。
液體神經(jīng)網(wǎng)絡(luò)技術(shù)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)有很大的不同,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只提供特定時(shí)刻的結(jié)果。而液體神經(jīng)網(wǎng)絡(luò)技術(shù)是一種非常特別的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以將神經(jīng)元都是聯(lián)系在一起,并且透過彼此之間具有相互依賴的特性,來描述系統(tǒng)于任何特定時(shí)間下的狀態(tài)。
此外,在處理突觸的方式上也有所不同,突觸是人工神經(jīng)元之間的連接。在標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)中,突觸連接的強(qiáng)度,可以用單一的數(shù)值來表示「權(quán)重(weight)」。而另一方面,在液體神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元之間的訊號(hào)交換是透過「非線性」函數(shù)控制的隨機(jī)過程,這意味著不會(huì)傳回與輸入成比例的響應(yīng)(圖五)。
圖五 : MIT的研究人員基于蠕蟲的啟發(fā),發(fā)現(xiàn)了一種更靈活的機(jī)器學(xué)習(xí)方法-液體神經(jīng)網(wǎng)絡(luò),可以實(shí)時(shí)轉(zhuǎn)換其底層算法,達(dá)到前所未有的速度和適應(yīng)性。(source:Quanta Magazine)
只需利用基本運(yùn)算獲得精確的近似解
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法是利用在訓(xùn)練期間調(diào)整「權(quán)重」的最佳值,但在面對(duì)大量數(shù)據(jù)的環(huán)境下,液體神經(jīng)網(wǎng)絡(luò)的適應(yīng)性會(huì)來得更強(qiáng)。因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)可以根據(jù)觀察到的輸入改變基礎(chǔ)程序。例如在對(duì)自動(dòng)駕駛汽車操作進(jìn)行測試時(shí),傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只能定期分析來自汽車攝影機(jī)的視覺數(shù)據(jù),雖然液體神經(jīng)網(wǎng)絡(luò)僅由19個(gè)神經(jīng)元和253個(gè)突觸所組成,按機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)來說這個(gè)能力根本是非常薄弱,但事實(shí)上,該模型是允許對(duì)例如蜿蜒的道路等,復(fù)雜的道路進(jìn)行更頻繁的采樣,因此液體神經(jīng)網(wǎng)絡(luò)能比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),表現(xiàn)出更高的反應(yīng)能力。
不過,在突觸和神經(jīng)元的非線性方程式,通常需要計(jì)算機(jī)多次運(yùn)算才能得出解決方案。因此這也是液體神經(jīng)網(wǎng)絡(luò)的死穴,因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)的突觸和神經(jīng)元的軟件,由于是單獨(dú)進(jìn)行計(jì)算,再加上所使用的突觸和神經(jīng)元數(shù)量不多,因此運(yùn)行速度非常慢。不過,這樣的困境也被克服了。
在2022年11月新發(fā)表的一篇論文中表示,研究團(tuán)隊(duì)提出了一種新網(wǎng)絡(luò)架構(gòu),不必透過復(fù)雜困難的運(yùn)算來解決非線性方程式。這個(gè)架構(gòu)是只需要利用基本運(yùn)算,就可以獲得近乎精確的近似解,大幅度的減少運(yùn)算時(shí)間和能量,以及明顯地提高了處理速度。
目前這個(gè)小組正用一架無人機(jī)測試最新的液體神經(jīng)網(wǎng)絡(luò),最初的測試是在森林中進(jìn)行的,但希望將來能移到城市環(huán)境中,看看在面對(duì)新的環(huán)境條件時(shí)自我調(diào)適能力。
結(jié)語:過度投入將導(dǎo)致泡沫熱潮
神經(jīng)運(yùn)算是人工智能熱潮的基礎(chǔ)技術(shù),在許多業(yè)者和機(jī)構(gòu)的投入下,從材料到設(shè)備、硬件、軟件到應(yīng)用,都呈現(xiàn)迅速地發(fā)展的態(tài)勢。此外,還有全方位的開放架構(gòu),進(jìn)入門坎相當(dāng)?shù)?,尤其是從?yīng)用的角度來看,也有相當(dāng)多的開發(fā)工具可使用。
以目前來看,但最大的障礙可能是收集所需要的大量學(xué)習(xí)數(shù)據(jù),例如在某些領(lǐng)域,由于隱私和其他問題,數(shù)據(jù)收集是非常困難的。
另外,有些應(yīng)用領(lǐng)域更是缺乏關(guān)于缺陷和故障的數(shù)據(jù),如預(yù)測性故障和故障分析。由于神經(jīng)運(yùn)算是一個(gè)以歸納方式給出答案的系統(tǒng),因此有些人會(huì)抱怨,這和訴諸理性的演繹法不同。
然而,無論如何神經(jīng)運(yùn)算已經(jīng)開始啟動(dòng)了,也呈現(xiàn)出非要達(dá)到目標(biāo)的勢頭。為了解決上述問題,仍然需要技術(shù)的創(chuàng)新,可以說所有的技術(shù)領(lǐng)域都有商業(yè)機(jī)會(huì)。因此更要冷靜地分析形勢,不要被繁榮的景象所引誘,而又出現(xiàn)另一個(gè)泡沫熱潮。
評(píng)論