可構(gòu)建AI的「AI」誕生:幾分之一秒內(nèi),就能預(yù)測新網(wǎng)絡(luò)的參數(shù)
來源 | 學(xué)術(shù)頭條
人工智能在很大程度上是一場數(shù)字游戲。當(dāng)深度神經(jīng)網(wǎng)絡(luò)在 10 年前開始超越傳統(tǒng)算法,是因為我們終于有了足夠的數(shù)據(jù)和處理能力來充分利用它們。
今天的神經(jīng)網(wǎng)絡(luò)更依賴于數(shù)據(jù)和算力。訓(xùn)練網(wǎng)絡(luò)時,需要仔細調(diào)整表征網(wǎng)絡(luò)的數(shù)百萬甚至數(shù)十億參數(shù)值,這些參數(shù)代表人工神經(jīng)元之間連接的強度。目標是為它們找到接近理想的值,這個過程稱為優(yōu)化。但訓(xùn)練網(wǎng)絡(luò)要達到這一點并不容易。倫敦 DeepMind 的研究科學(xué)家 Petar Veli?kovi? 說:“訓(xùn)練可能需要花費幾天、幾周甚至幾個月的時間”。
但上述這種情況可能很快就會改變。安大略省圭爾夫大學(xué)的 Boris Knyazev 和他的同事設(shè)計并訓(xùn)練了一個“超網(wǎng)絡(luò)”——一種其他神經(jīng)網(wǎng)絡(luò)的“霸主”,該網(wǎng)絡(luò)可以加快訓(xùn)練過程。給定一個為某些任務(wù)設(shè)計的新的、未經(jīng)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),超網(wǎng)絡(luò)可以在幾分之一秒內(nèi)預(yù)測新網(wǎng)絡(luò)的參數(shù),理論上可以使訓(xùn)練變得不必要。由于超網(wǎng)絡(luò)學(xué)習(xí)了深度神經(jīng)網(wǎng)絡(luò)設(shè)計中極其復(fù)雜的模式,因此這項工作也可能具有更深層次的理論意義。這項研究題為 Parameter Prediction for Unseen Deep Architectures。
目前,超網(wǎng)絡(luò)在某些環(huán)境中表現(xiàn)的出人意料地好,但仍有增長空間。Veli?kovi? 說:“如果他們能解決相應(yīng)問題,這將對機器學(xué)習(xí)產(chǎn)生很大的影響”。
獲得“超能力”
目前,訓(xùn)練和優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的最佳方法是一種稱為隨機梯度下降技術(shù)(SGD)的變體。訓(xùn)練涉及在給定任務(wù)中(例如:圖像識別)最小化網(wǎng)絡(luò)誤差。SGD 算法通過大量標記數(shù)據(jù)來調(diào)整網(wǎng)絡(luò)參數(shù),并減少誤差或損失。梯度下降是損失函數(shù)從高值向下降到某個最小值的迭代過程,它代表了足夠好的(有時甚至?xí)r最好的)參數(shù)值。
但是這種技術(shù)只有在網(wǎng)絡(luò)需要優(yōu)化時才有效。為了構(gòu)建最初的神經(jīng)網(wǎng)絡(luò)(一般由從輸入到輸出的多層人工神經(jīng)元組成),工程師必須依靠直覺和經(jīng)驗法則。這些架構(gòu)在神經(jīng)元層數(shù)、每層神經(jīng)元數(shù)等方面可能有所不同。
圖1 梯度下降算法用來降低網(wǎng)絡(luò)的“損失函數(shù)”,其中較高的值表示較大的損失。該算法試圖找到全局最小值以最小化損失。
理論上,一個人可以從很多架構(gòu)開始,然后優(yōu)化每個架構(gòu)并選擇最好的。但現(xiàn)任 Google Brain 的訪問研究員 MengYe Ren 說:“訓(xùn)練需要花費相當(dāng)多的時間,訓(xùn)練和測試每個候選網(wǎng)絡(luò)架構(gòu)是不可能的。它不能很好地擴展,尤其是考慮到數(shù)百萬種可能的設(shè)計?!?/p>
所以在 2018 年,Ren 和他在多倫多大學(xué)的前同事 Chris Zhang 及他們的顧問 Raquel Urtasun 嘗試了一種不同的方法。他們設(shè)計了所謂的圖超網(wǎng)絡(luò)(Graph Hypernetwork: GHN),可以在給定一組候選架構(gòu)的情況下,找到解決某些任務(wù)的最佳深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。
該名稱概述了他們的方法?!皥D”指的是深度神經(jīng)網(wǎng)絡(luò)的架構(gòu),可以被認為是一個數(shù)學(xué)圖——由線或邊連接的點或節(jié)點的集合。這里的節(jié)點代表計算單元(通常是神經(jīng)網(wǎng)絡(luò)的整個層),邊代表這些單元互連的方式。
圖超網(wǎng)絡(luò)的工作原理是首先對于任何需要優(yōu)化的架構(gòu)(稱其為候選架構(gòu)),它盡最大努力預(yù)測候選者的理想?yún)?shù)。然后將實際神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置為預(yù)測值,并在給定任務(wù)上對其進行測試。Ren 的團隊表明,這種方法可用于對候選架構(gòu)進行排名,并選擇表現(xiàn)最佳的架構(gòu)。
當(dāng) Knyazev 和他的同事看到圖超網(wǎng)絡(luò)的想法時,他們意識到可以在此基礎(chǔ)上進行構(gòu)建。在他們的新論文中,該團隊展示了如何使用 GHN,不僅從一組樣本中找到最佳架構(gòu),還可以預(yù)測最佳網(wǎng)絡(luò)的參數(shù),使其在絕對意義上表現(xiàn)良好。在還沒有達到最好的情況下,其可以使用梯度下降進一步訓(xùn)練網(wǎng)絡(luò)。
Ren 說:“這是一篇非常扎實的論文,它包含了更多我們所做的實驗??吹綀D超網(wǎng)絡(luò)在非常努力地提升絕對性能,我們大家都很高興?!?/p>
訓(xùn)練“教練”
Knyazev 和他的團隊將他們的超網(wǎng)絡(luò)命名為 GHN-2,它改進了Ren及其同事構(gòu)建的圖超網(wǎng)絡(luò)的兩個重要方面。
首先,他們依賴 Ren 等人將神經(jīng)網(wǎng)絡(luò)架構(gòu)描繪為圖的技術(shù)。圖中的每個節(jié)點都是關(guān)于執(zhí)行某種特定類型計算的神經(jīng)元子集的編碼信息。圖的邊緣描繪了信息如何從一個節(jié)點到另一個節(jié)點,從輸入到輸出。
第二,他們借鑒了訓(xùn)練超網(wǎng)絡(luò)預(yù)測新的候選架構(gòu)的方法。這需要另外兩個神經(jīng)網(wǎng)絡(luò)。第一個啟用對原始候選圖的計算,從而更新與每個節(jié)點相關(guān)的信息,第二個將更新的節(jié)點作為輸入,并預(yù)測候選神經(jīng)網(wǎng)絡(luò)的相應(yīng)計算單元的參數(shù)。這兩個網(wǎng)絡(luò)也有自己的參數(shù),必須在超網(wǎng)絡(luò)正確預(yù)測參數(shù)值之前對其進行優(yōu)化。
具體流程如下,首先你需要訓(xùn)練數(shù)據(jù)——候選人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network: ANN)架構(gòu)的隨機樣本。對于示例中的每一個架構(gòu),先從一個圖開始,之后使用圖超神經(jīng)網(wǎng)絡(luò)預(yù)測參數(shù),并使用預(yù)測的參數(shù)初始化候選 ANN。使用 ANN 來執(zhí)行一些特定的任務(wù),如圖像識別。通過計算 ANN 的損失函數(shù),來更新做出預(yù)測的超網(wǎng)絡(luò)參數(shù),而不是更新 ANN 的參數(shù)做出預(yù)測。這樣可以使超網(wǎng)絡(luò)在每一次迭代后做的更好;然后,通過迭代標記過的訓(xùn)練數(shù)據(jù)集中的每一個圖像和架構(gòu)的隨機樣本中的每一個 ANN,來減少每一步的損失,直到達到最優(yōu)。一般這個情況下,你就可以得到一個訓(xùn)練有素的超網(wǎng)絡(luò)。
因為 Ren 的團隊沒有公開源代碼,所以 Knyazev 的團隊采納了這些想法,從頭開始編寫了自己的軟件,并對其進行了改進。首先,他們確定了 15 種類型的節(jié)點,通過混合、匹配可以構(gòu)建任何現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)。他們還在提高預(yù)測的準確性上取得了一些進步。
最重要的是,為了確保 GHN-2 學(xué)會預(yù)測各種目標神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù),Knyazev 及其同事創(chuàng)建了一個包含 100 萬個可能架構(gòu)的獨特數(shù)據(jù)集。Knyazev 說:“為了訓(xùn)練我們的模型,我們創(chuàng)建了盡可能多樣化的隨機架構(gòu)”。
因此,GHN-2 的預(yù)測能力更有可能被很好地推廣到看不見的目標架構(gòu)。谷歌研究院大腦團隊的研究科學(xué)家 Thomas Kipf 說:“例如,它們可以解釋人們使用的所有典型的最先進的架構(gòu),這是一個重大貢獻?!?/p>
圖2 圖神經(jīng)網(wǎng)絡(luò)
圖片令人印象深刻的結(jié)果
當(dāng)然,真正的考驗是讓 GHN-2 發(fā)揮作用。一旦 Knyazev 和他的團隊訓(xùn)練它預(yù)測給定任務(wù)的參數(shù),例如,對特定數(shù)據(jù)集中的圖像進行分類,他們就測試了它為任何隨機候選架構(gòu)預(yù)測參數(shù)的能力。這個新的候選者可能具有與訓(xùn)練數(shù)據(jù)集中的百萬架構(gòu)相似的屬性,或者可能不同——有點離群值。在前一種情況下,目標架構(gòu)被認為是在分發(fā)中;在后者中,它已無法分發(fā)。深度神經(jīng)網(wǎng)絡(luò)在對后者進行預(yù)測時經(jīng)常會失敗,因此在此類數(shù)據(jù)上測試 GHN-2 非常重要。
借助經(jīng)過全面訓(xùn)練的 GHN-2 模型,該團隊預(yù)測了 500 個以前看不見的隨機目標網(wǎng)絡(luò)架構(gòu)的參數(shù)。然后將這 500 個網(wǎng)絡(luò)(其參數(shù)設(shè)置為預(yù)測值)與使用隨機梯度下降訓(xùn)練的相同網(wǎng)絡(luò)進行對比。盡管有些結(jié)果更加復(fù)雜,但新的超網(wǎng)絡(luò)通??梢缘钟鶖?shù)千次 SGD 迭代,有時甚至做得更好。
圖3 安大略省圭爾夫大學(xué)的 Boris Knyazev ,幫助建立了一個超網(wǎng)絡(luò),旨在預(yù)測未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的參數(shù)。
對于圖像數(shù)據(jù)集 CIFAR-10 ,GHN-2 在分布式架構(gòu)上的平均準確率為 66.9%,而使用接近 2,500 次 SGD 迭代訓(xùn)練的網(wǎng)絡(luò),所達到的平均準確率為 69.2%。對于非分布式架構(gòu),GHN-2 的表現(xiàn)出人意料地好,達到了大約 60% 的準確率。特別是,它對一種特定知名深度神經(jīng)網(wǎng)絡(luò)架構(gòu) ResNet-50 實現(xiàn)了 58.6% 的可觀準確率。Knyazev 在該領(lǐng)域的旗艦會議 NeurIPS 2021 上說:“鑒于 ResNet-50 比我們的平均訓(xùn)練架構(gòu)大大約 20 倍,所以 ResNet-50 的泛化效果出奇地好,”。
GHN-2 在 ImageNet 上表現(xiàn)不佳,ImageNet 是一個相當(dāng)大的數(shù)據(jù)集。平均而言,它的準確率只有 27.2% 左右。盡管如此,這與使用 5,000 步 SGD 訓(xùn)練的相同網(wǎng)絡(luò)的 25.6% 的平均準確度相比也是有利的。 (當(dāng)然,如果你繼續(xù)使用 SGD,你最終可以以相當(dāng)大的成本獲得 95% 的準確率。)最關(guān)鍵的是,GHN-2 在不到一秒的時間內(nèi)做出了 ImageNet 預(yù)測,而使用 SGD 在圖形處理單元上預(yù)測參數(shù),來獲得相同的性能,平均花費時間比 GHN-2 要長 10,000 倍。
Veli?kovi? 說:“結(jié)果絕對令人印象深刻,他們基本上大大降低了能源成本?!?/p>
當(dāng) GHN-2 從架構(gòu)樣本中為一項任務(wù)找到最佳神經(jīng)網(wǎng)絡(luò),而該最佳選擇還不夠好時,至少模型已經(jīng)得到了部分訓(xùn)練并且可以進一步優(yōu)化。與其在使用隨機參數(shù)初始化的網(wǎng)絡(luò)上釋放 SGD,不如使用 GHN-2 的預(yù)測作為起點。Knyazev 說:“基本上我們模仿的是預(yù)訓(xùn)練”。
超越 GHN-2
盡管取得了這些成功,Knyazev 認為機器學(xué)習(xí)社區(qū)一開始會抵制使用圖超網(wǎng)絡(luò)。他將其比作 2012 年之前深度神經(jīng)網(wǎng)絡(luò)面臨的阻力。當(dāng)時,機器學(xué)習(xí)從業(yè)者更喜歡手工設(shè)計的算法,而不是神秘的深度網(wǎng)絡(luò)。但是,當(dāng)對大量數(shù)據(jù)進行訓(xùn)練的大型深度網(wǎng)絡(luò)開始超越傳統(tǒng)算法時,這種情況發(fā)生了變化。Knyazev :“這可以走同樣的路?!?/p>
與此同時,Knyazev 看到了很多改進的機會。例如,GHN-2 只能被訓(xùn)練來預(yù)測參數(shù)以解決給定的任務(wù),例如對 CIFAR-10 或 ImageNet 圖像進行分類,但不能同時進行。在未來,他設(shè)想在更多樣化的架構(gòu)和不同類型的任務(wù)(例如圖像識別、語音識別和自然語言處理)上訓(xùn)練圖超網(wǎng)絡(luò)。然后根據(jù)目標架構(gòu)和手頭的特定任務(wù)來進行預(yù)測。
如果這些超網(wǎng)絡(luò)真的成功,新的深度神經(jīng)網(wǎng)絡(luò)的設(shè)計和開發(fā),將不再局限于財力雄厚和能夠訪問大數(shù)據(jù)的公司。任何人都可以參與其中。Knyazev 非常清楚這種“使深度學(xué)習(xí)民主化”的潛力,稱其為長期愿景。
然而,如果像 GHN-2 這樣的超網(wǎng)絡(luò)真的成為優(yōu)化神經(jīng)網(wǎng)絡(luò)的標準方法,Veli?kovi? 強調(diào)了一個潛在的大問題。他說:“你有一個神經(jīng)網(wǎng)絡(luò)——本質(zhì)上是一個黑盒子,再使用圖超網(wǎng)絡(luò)去預(yù)測另一個神經(jīng)網(wǎng)絡(luò)的參數(shù)。當(dāng)它出錯時,你無法解釋[它]?!?/p>
當(dāng)然,在很大程度上這已經(jīng)是神經(jīng)網(wǎng)絡(luò)的特點了。Veli?kovi? 說:“我不會稱之為弱點,而稱之為警告信號?!?/p>
然而,Kipf 看到了一線希望?!耙恍┢渌氖挛镒屛覍Υ烁械阶钆d奮,即 GHN-2 展示了圖神經(jīng)網(wǎng)絡(luò)在復(fù)雜數(shù)據(jù)中尋找模式的能力?!?/p>
通常,深度神經(jīng)網(wǎng)絡(luò)會在圖像、文本或音頻信號中找到模式,這些是相當(dāng)結(jié)構(gòu)化的信息類型。而 GHN-2 在完全隨機的神經(jīng)網(wǎng)絡(luò)架構(gòu)圖中找到模式。這是非常復(fù)雜的數(shù)據(jù)。
然而,GHN-2 可以泛化——這意味著它可以對看不見的、甚至分布式網(wǎng)絡(luò)架構(gòu)以外的參數(shù)做出合理的預(yù)測。Kipf 說:“這項工作向我們展示了許多模式在不同的架構(gòu)中以某種方式相似,并且模型可以學(xué)習(xí)如何將知識從一種架構(gòu)轉(zhuǎn)移到不同的架構(gòu),這可能會激發(fā)一些神經(jīng)網(wǎng)絡(luò)的新理論?!?/p>
如果是這樣的話,它可能會讓我們對這些黑匣子產(chǎn)生新的、更深入的理解。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。