「超深度學(xué)習(xí)」創(chuàng)造新一代人工智能的核心理論
作者:株式會(huì)社阿波羅日本 首席科學(xué)家顧澤蒼(中國(guó)籍)
本文引用地址:http://cafeforensic.com/article/201902/397690.htm新一代人工智能超深度學(xué)習(xí)( Super Deep Learning SDL)的創(chuàng)新發(fā)展歷程是:早在1991年到1993年,伴隨著大規(guī)集成電路極速發(fā)展的時(shí)期,大規(guī)集成電路的最小面積,最短配線長(zhǎng)度,同時(shí)還要考慮電氣特性的多目的最佳化解的獲得,成為當(dāng)時(shí)科學(xué)技術(shù)領(lǐng)域中最為關(guān)注的課題。在那個(gè)時(shí)代,由美國(guó)學(xué)界提出的導(dǎo)入“熵”的理論解決最佳化組合問(wèn)題,這一理論一時(shí)也被世界期待。但是,這個(gè)算法同目前深度學(xué)習(xí)相仿,計(jì)算復(fù)雜度極高。即使一個(gè)最簡(jiǎn)單的電路的計(jì)算,要花費(fèi)若干天。面對(duì)被世界推崇的理論,我們大膽的提出了“模糊事件概率測(cè)度”理論,通過(guò)用模糊事件概率測(cè)度判斷組合結(jié)果的價(jià)值,獲得了可以快速進(jìn)行大規(guī)模集成電路的最短配線長(zhǎng),最小面積以及電氣特性的多目的組合最佳化的解的方法。
其實(shí),當(dāng)今的深度學(xué)習(xí)中的“訓(xùn)練”,由于神經(jīng)網(wǎng)絡(luò)之間不像大規(guī)模集成電路具有模塊之間的連接關(guān)系,也不像圍棋具有規(guī)則,可以建立棋子之間的連接關(guān)系,作為不具有連接關(guān)系的神經(jīng)網(wǎng)絡(luò)從組合理論看,就是需要窮舉法才可以獲得最佳訓(xùn)練結(jié)果,黑箱問(wèn)題的出現(xiàn),其原因就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練沒(méi)有獲得最佳解所造成的。
1994年到1999年,由于已經(jīng)知道傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的致命問(wèn)題,為了同當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)對(duì)抗,我們創(chuàng)建了“概率尺度自組織”的無(wú)監(jiān)督機(jī)器學(xué)習(xí)理論。在長(zhǎng)期的聲音識(shí)別,手寫(xiě)文字識(shí)別,圖像識(shí)別等模式識(shí)別領(lǐng)域中進(jìn)行了大量的應(yīng)用,證明了概率尺度自組織機(jī)器學(xué)習(xí)理論的特殊的應(yīng)用效果。
2000年到2014年,國(guó)際上個(gè)人信息法的制定,成為社會(huì)關(guān)注的焦點(diǎn)。由于當(dāng)時(shí)個(gè)人信息的67%是通過(guò)紙介質(zhì)文檔流失的,為此我們?cè)趪?guó)際上提出了新的代碼符號(hào)信息記錄的方法,由此“具有隱形結(jié)構(gòu)的第三代條碼網(wǎng)屏編碼誕生了,可以在A4的一張紙上埋入一本小說(shuō)的信息倍受業(yè)界的關(guān)注。在這十幾年中針對(duì)Google眼鏡,我們還提出了,可以把任何圖像直接通過(guò)概率尺度自組織的機(jī)器學(xué)習(xí)的手法,變換成不到十個(gè)字節(jié)的1036的代碼,就可以把任何圖像作為網(wǎng)絡(luò)入口,引導(dǎo)從網(wǎng)絡(luò)上下載各種文件,即ITC(Image To Code)理論,顛覆了當(dāng)今流行的AR技術(shù)。在這期間,我們還提出了“可以統(tǒng)一歐幾里德空間與概率空間的距離公式。
2014年到2016年我們將概率尺度自組織同神經(jīng)網(wǎng)絡(luò)理論結(jié)合,提出了分散機(jī)器學(xué)習(xí)的”超深度學(xué)習(xí)“理論,為人工智能的全面普及應(yīng)用給予了理論支持。我們是經(jīng)歷過(guò)上一個(gè)人工智能的研究的人,對(duì)于當(dāng)今火熱的AI熱潮,親身感到上一個(gè)人工智能的特點(diǎn)是知識(shí)庫(kù),其突出的成果是日本成功的實(shí)現(xiàn)了有軌電車(chē)的自動(dòng)駕駛,由此在控制理論上產(chǎn)生了模糊控制的新理論。本次人工智能的特點(diǎn)就是機(jī)器學(xué)習(xí),相信本次人工智能高潮的代表性成果一定是自動(dòng)駕駛汽車(chē)。因?yàn)闄C(jī)器學(xué)習(xí)可以把人的知識(shí)以概率分布的形式進(jìn)行記述,大大的簡(jiǎn)化了知識(shí)庫(kù)的形式,面對(duì)復(fù)雜的自動(dòng)駕駛汽車(chē),機(jī)器學(xué)習(xí)可以將人的知識(shí)變成機(jī)器的智慧,使復(fù)雜的控制簡(jiǎn)化。知識(shí)庫(kù)只能記述宏觀知識(shí),機(jī)器學(xué)習(xí)在自動(dòng)駕駛汽車(chē)中不僅可以高效率的學(xué)習(xí)人的宏觀知識(shí),還可以學(xué)習(xí)微觀知識(shí),一個(gè)以機(jī)器學(xué)習(xí)理論為核心的“機(jī)智獲得”的新的自動(dòng)控制理論將展現(xiàn)在我們面前。
下面我們重點(diǎn)討論深度學(xué)習(xí)所遺留下的問(wèn)題所在:
2016年初,AlphaGo連續(xù)打敗人類(lèi)棋手,推崇深度學(xué)習(xí)的熱不斷的升溫。這說(shuō)明,深度學(xué)習(xí)是在實(shí)際應(yīng)用中被看好的,應(yīng)該肯定走機(jī)器學(xué)習(xí)這條路是時(shí)代發(fā)展的必由之路,必然會(huì)給我們帶來(lái)意想不到的應(yīng)用效果,但是,也應(yīng)該清醒的看到深度學(xué)習(xí)目前有很多關(guān)鍵問(wèn)題不能解決。雖然深度學(xué)習(xí)在圖像識(shí)別,聲音識(shí)別上確實(shí)具有一定的應(yīng)用效果,但是,在產(chǎn)業(yè)界的應(yīng)用,特別是在控制上的應(yīng)用還存在著很大的問(wèn)題。
必須要指出的是:深度學(xué)習(xí)的訓(xùn)練結(jié)果,是將目標(biāo)函數(shù)信息通過(guò)訓(xùn)練承載到海量的屬于歐幾里德空間的參數(shù)上,即深度學(xué)習(xí)是函數(shù)映射模型,將概率空間的目標(biāo)函數(shù)映射到歐幾里得空間,其結(jié)果需要將概率空間的某一類(lèi)數(shù)據(jù)的所有可能出現(xiàn)的結(jié)果,用人工標(biāo)注后進(jìn)行接近無(wú)限次的訓(xùn)練。例如,一個(gè)語(yǔ)音識(shí)別的數(shù)據(jù)就需要2400萬(wàn)美元的人工標(biāo)注費(fèi)用,這是深度學(xué)習(xí)難于普及的致命問(wèn)題。
由于深度學(xué)習(xí)所構(gòu)造的神經(jīng)網(wǎng)絡(luò),與大腦的機(jī)理又是風(fēng)馬牛不相干的,因此也不能看到在神經(jīng)元的方面會(huì)起到什么作用。得到的結(jié)論是:通過(guò)這樣的方式所產(chǎn)生的訓(xùn)練效果,與所投入的硬件開(kāi)銷(xiāo)不成比例。例如AlphaGo所需要的硬件開(kāi)銷(xiāo)是1000個(gè)CPU,200個(gè)GPU,還需要20萬(wàn)W的電力消耗。這樣的硬件開(kāi)銷(xiāo)如何普及?況且AlphaGo的設(shè)計(jì)者也指出深度學(xué)習(xí)在整個(gè)系統(tǒng)中的作用只占30%是次要地位。其實(shí)深度學(xué)習(xí)在如AlphaGo這種組合理論的應(yīng)用中,是否可以起到作用,目前沒(méi)有令人信服的理論依據(jù)。
圖1 深度學(xué)習(xí)需要搞清的幾個(gè)問(wèn)題
深度學(xué)習(xí)還有需要搞清如圖1所示的目前解釋不了的問(wèn)題。
首先需要搞清為什么層數(shù)越多訓(xùn)練結(jié)果的圖像越清晰?開(kāi)始我們?cè)J(rèn)為是承載目標(biāo)函數(shù)的信息的參數(shù)數(shù)量的提高使記錄的信息的信息量的提高,但是從數(shù)學(xué)上我們可以證明在同等節(jié)點(diǎn)的層與層的訓(xùn)練中,必定可以找到一組參數(shù)可使輸入信息完全等于輸出信息。這就說(shuō)明深度學(xué)習(xí)的層數(shù)越多圖像越清晰與訓(xùn)練的參數(shù)數(shù)量無(wú)關(guān),這就剩下一個(gè)可以信服的原因,深度學(xué)習(xí)每一層所訓(xùn)練的結(jié)果實(shí)際獲得的是一組局域最佳解,神經(jīng)網(wǎng)絡(luò)可以用一個(gè)傳遞的函數(shù)模型來(lái)描述,可以認(rèn)為每一層訓(xùn)練后的解是比上一層更接近整體最佳解,所以參數(shù)越接近整體最佳解神經(jīng)網(wǎng)絡(luò)的傳輸率越高圖像就越清晰。因此用這個(gè)現(xiàn)象來(lái)解釋深度學(xué)習(xí)中間層越多應(yīng)用效果越好不是一個(gè)嚴(yán)謹(jǐn)?shù)目茖W(xué)性的解釋方法。所以包括發(fā)明人Hinton在內(nèi)并沒(méi)有人能在數(shù)學(xué)上證明深度學(xué)習(xí)具有突破性應(yīng)用效果的真實(shí)機(jī)理。
那么,深度學(xué)習(xí)的黑箱問(wèn)題是怎么回事?這里所謂的黑箱問(wèn)題是涉及兩個(gè)方面的問(wèn)題?一個(gè)是深度學(xué)習(xí)的不可分析性,出現(xiàn)問(wèn)題不能依據(jù)一定的理論進(jìn)行分析,這是因?yàn)樯疃葘W(xué)習(xí)屬于函數(shù)映射模型,映射結(jié)果很難反向推理。對(duì)于深度學(xué)習(xí)模型的原理實(shí)際上是很清楚的,至于人們把“深度學(xué)習(xí)”的應(yīng)用效果好的機(jī)理作為“天知”,我們?cè)诤竺鏁?huì)專(zhuān)題討論。
深度學(xué)習(xí)出現(xiàn)黑箱問(wèn)題的主要原因:其實(shí)深度學(xué)習(xí)所訓(xùn)練的機(jī)理就是在一個(gè)海量的數(shù)據(jù)空間里進(jìn)行組合,黑箱問(wèn)題就在于在海量數(shù)據(jù)空間里進(jìn)行窮舉時(shí),會(huì)出現(xiàn)無(wú)窮的局域最佳解,其局域最佳解的分布曲線通過(guò)數(shù)學(xué)方法無(wú)法計(jì)算出,人為的實(shí)驗(yàn)也是目前圖靈機(jī)所做不到的,因此在訓(xùn)練中很可能會(huì)出現(xiàn)一個(gè)參數(shù)稍微改變輸出結(jié)果會(huì)突然崩潰,或者是所訓(xùn)練的結(jié)果并不是按照我們想象的結(jié)果進(jìn)行展開(kāi)。在組合空間中所獲得的局域最佳解出現(xiàn)在某一個(gè)情況下突然出現(xiàn)令人費(fèi)解的狀態(tài)是正常的,我們?cè)谕ㄟ^(guò)規(guī)則解決最佳組合的NP問(wèn)題中經(jīng)常會(huì)出這種現(xiàn)象,往往是通過(guò)程序的規(guī)則的不斷堆積來(lái)實(shí)現(xiàn),對(duì)于深度學(xué)習(xí)要通過(guò)重新改變參數(shù),尋求另一個(gè)局域最佳解的方法來(lái)解決。所以只要是知道深度學(xué)習(xí)的訓(xùn)練是數(shù)據(jù)最佳化組合的過(guò)程的特點(diǎn),就不難理解深度學(xué)習(xí)的黑箱問(wèn)題。特別是作為概率空間的目標(biāo)函數(shù)的隨機(jī)性會(huì)引發(fā)黑箱問(wèn)題的發(fā)生。再有就是在“深度學(xué)習(xí)”的層與層之間節(jié)點(diǎn)的連接中,為了獲得非線性的分類(lèi)結(jié)果,導(dǎo)入了激勵(lì)函數(shù)(Activation Function)。這也是引發(fā)黑箱問(wèn)題發(fā)生的重要隱患。
下面的問(wèn)題就是在模式識(shí)別的應(yīng)用上,是特征向量的質(zhì)量重要,還是通過(guò)學(xué)習(xí)進(jìn)行分類(lèi)重要?回答很簡(jiǎn)單沒(méi)有好的特征向量的質(zhì)量再好的深度學(xué)習(xí)也是無(wú)濟(jì)于事的,在許多文章中都把深度學(xué)習(xí)可以直接抽取特征量作為深度學(xué)習(xí)的一大特點(diǎn)。其實(shí)深度學(xué)習(xí)在特征映射的方法上簡(jiǎn)直是極其傳統(tǒng)的處理方法,而且并沒(méi)有考慮圖像信息并不只是灰度信息,所以深度學(xué)習(xí)在模式識(shí)別上的應(yīng)用特點(diǎn)只能停留在大量的學(xué)習(xí)的作用上,下一代的機(jī)器學(xué)習(xí)模型在特征向量抽取質(zhì)量上努力,也一定會(huì)產(chǎn)生更好的突出效果。
最后需要搞清的一個(gè)重要問(wèn)題:深度學(xué)習(xí)的應(yīng)用效果好的機(jī)理是什么?為使我們所提出的模型可以超越“深度學(xué)習(xí)”,我們對(duì)“深度學(xué)習(xí)”的應(yīng)用效果好的機(jī)理做了一些研究,發(fā)現(xiàn)將目標(biāo)函數(shù)映射到大數(shù)據(jù)集上后,數(shù)據(jù)分類(lèi)中的有效距離被擴(kuò)大了,比如人臉識(shí)別,被認(rèn)為是導(dǎo)入深度學(xué)習(xí)后應(yīng)用效果最明顯的案例,人臉的位置的特征信息充其量不過(guò)幾百個(gè),傳統(tǒng)的模式識(shí)別的效果所以不如深度學(xué)習(xí),這是因?yàn)閮蓚€(gè)最接近的特征向量的總體距離與概率分布的范圍之間的差是固定的,但是如果把人臉位置圖像信息通過(guò)深度學(xué)習(xí)的函數(shù)映射,大數(shù)據(jù)集可以“放大”幾百個(gè)人臉位置特征向量所構(gòu)成的距離,由于“深度學(xué)習(xí)”模型每增加一個(gè)中間層,復(fù)雜度為O(nn)就是一個(gè)指數(shù)性的提高,所以數(shù)據(jù)集的規(guī)模不可能無(wú)限增加,因此我們所提出的的新的模型的復(fù)雜度O(n2)如果是接近線性的,就一定可以實(shí)現(xiàn)超越深度學(xué)習(xí)的數(shù)據(jù)集規(guī)模的特征數(shù)據(jù)集,就一定可以在應(yīng)用上超越“深度學(xué)習(xí)”的效果。
在“深度學(xué)習(xí)”被神化的高潮中,欺騙了絕大多數(shù)業(yè)界的專(zhuān)家們的一個(gè)問(wèn)題是:深度學(xué)習(xí)所采用如圖2所示的對(duì)損失函數(shù)的SGD評(píng)價(jià)方法,所得到的的訓(xùn)練結(jié)果是組合理論中的一個(gè)局域的最佳解,這一點(diǎn)深度學(xué)習(xí)的研究者在當(dāng)時(shí)并不理解,其實(shí)這么一個(gè)高次的組合空間不可能只有一個(gè)局域的最佳解。
圖2 隨機(jī)梯度下降法SDG示意圖
其實(shí)如圖3所示,深度學(xué)習(xí)的訓(xùn)練存在著復(fù)數(shù)個(gè)局域最佳解的事實(shí),20多年前已經(jīng)被一些例如Hopfild等的早期人工智能科學(xué)家所認(rèn)識(shí),力圖用組合理論的最短路徑訪問(wèn)的方法進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,
圖3 Hopfild的聯(lián)想記憶與最佳組合理論示意圖
遺憾的是神經(jīng)網(wǎng)絡(luò)的組合空間規(guī)模之大,屬于圖靈機(jī)不可解的NP問(wèn)題,所以這些科學(xué)家的努力沒(méi)能成功,可是清楚的告訴我們后人傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是走不下去的。
評(píng)論