直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無(wú)監(jiān)督學(xué)習(xí)(1)
近日,OpenAI 首席科學(xué)家 Ilya Sutskever 在專(zhuān)注于計(jì)算理論研究的 Simons Institute 作了一次講座,一句話總結(jié)就是我們可以通過(guò)壓縮的視角來(lái)看待無(wú)監(jiān)督學(xué)習(xí)。此外他還分享了不少其它有趣的見(jiàn)解。機(jī)器之心整理了該演講的大體內(nèi)容,希望借此幫助讀者更深入地理解無(wú)監(jiān)督學(xué)習(xí)。
Sutskever 首先談到了自己的研究方向的變化,他說(shuō):「不久前,我將全部的研究重心都轉(zhuǎn)移到了 AI 對(duì)齊研究上?!惯@說(shuō)的是 OpenAI 前段時(shí)間成立的「Superalignment(超級(jí)對(duì)齊)」團(tuán)隊(duì),由他與 Jan Leike 共同領(lǐng)導(dǎo)。Sutskever 表示他們已經(jīng)在 AI 對(duì)齊方面取得了一些研究成果,但這并非這次演講關(guān)注的話題。對(duì)此感興趣的讀者可參閱《用 AI 對(duì)齊 AI?超級(jí)對(duì)齊團(tuán)隊(duì)領(lǐng)導(dǎo)人詳解 OpenAI 對(duì)齊超級(jí)智能四年計(jì)劃》。
這次演講的主題為「An observation on Generalization(對(duì)泛化的一種觀察)」,而 Ilya Sutskever 具體談?wù)摰闹攸c(diǎn)是一種解釋無(wú)監(jiān)督學(xué)習(xí)的理論。
首先,Ilya Sutskever 提出了一連串有關(guān)「學(xué)習(xí)」的廣義問(wèn)題:學(xué)習(xí)究竟是什么?為什么學(xué)習(xí)有用?為什么學(xué)習(xí)應(yīng)該有用?計(jì)算機(jī)為什么應(yīng)該具備學(xué)習(xí)能力?為什么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)?為什么機(jī)器學(xué)習(xí)模型可以學(xué)習(xí)到數(shù)據(jù)的規(guī)律?我們能否用數(shù)學(xué)形式來(lái)描述學(xué)習(xí)?
監(jiān)督學(xué)習(xí)
Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示,監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)理論。
監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)在于能提供一個(gè)學(xué)習(xí)必定成功的精確數(shù)學(xué)條件。也就是說(shuō),如果你有一些來(lái)自某數(shù)據(jù)分布的數(shù)據(jù),然后你能成功實(shí)現(xiàn)較低的訓(xùn)練損失并且你的訓(xùn)練數(shù)據(jù)足夠多(多于數(shù)據(jù)分布的自由度),那么你的測(cè)試誤差必定很低。
從數(shù)學(xué)上講,如果能在一類(lèi)函數(shù)中找到能實(shí)現(xiàn)較低訓(xùn)練損失的函數(shù),那么學(xué)習(xí)就必定成功。也因此,監(jiān)督學(xué)習(xí)非常簡(jiǎn)單。
研究者在相關(guān)研究中已經(jīng)發(fā)現(xiàn)了一些定理,如下便是一例。Sutskever 表示解釋這個(gè)定理大概需要五分鐘,但很顯然他的演講時(shí)間有限。
總而言之,這個(gè)定理很「優(yōu)雅」,只用三行數(shù)學(xué)推導(dǎo)便能證明監(jiān)督學(xué)習(xí)過(guò)程。
所以相對(duì)而言,監(jiān)督學(xué)習(xí)已經(jīng)得到很好的理解。我們知道其必定會(huì)成功的原因 —— 只要我們能收集到大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)集,那么就完全可以相信模型必定越來(lái)越好。當(dāng)然另一點(diǎn)也很重要,也就是保證測(cè)試分布和訓(xùn)練分布一致;只有這樣,監(jiān)督學(xué)習(xí)理論才是有效的。
所以監(jiān)督學(xué)習(xí)的概念是很簡(jiǎn)單的。我們也已經(jīng)有了監(jiān)督學(xué)習(xí)為什么有效的答案 —— 我們知道語(yǔ)音識(shí)別和圖像分類(lèi)為什么可以實(shí)現(xiàn),因?yàn)樗鼈兌蓟谟行矣袛?shù)學(xué)保證的監(jiān)督學(xué)習(xí)。
這里 Ilya Sutskever 順帶提了提 VC 維度。他提到很多統(tǒng)計(jì)學(xué)習(xí)理論的研究者都認(rèn)為 VC 維度是一大關(guān)鍵組件,但 VC 維度被發(fā)明出來(lái)的目的是為了讓模型有能力處理有無(wú)限精度的參數(shù)。
舉個(gè)例子,如果你的線性分類(lèi)器的每個(gè)參數(shù)都有無(wú)限精度,而現(xiàn)實(shí)中的浮點(diǎn)數(shù)的精度都是有限的,而且精度會(huì)收縮,那么你可以通過(guò) VC 維度實(shí)現(xiàn)一些函數(shù),將這個(gè)線性分類(lèi)器歸約成前面公式描述的監(jiān)督學(xué)習(xí)形式。
無(wú)監(jiān)督學(xué)習(xí)是什么?
接下來(lái)看無(wú)監(jiān)督學(xué)習(xí)。首先什么是無(wú)監(jiān)督學(xué)習(xí)?Ilya Sutskever 表示他目前還沒(méi)看到令人滿意的對(duì)無(wú)監(jiān)督學(xué)習(xí)的闡釋?zhuān)覀円膊恢廊绾螐臄?shù)學(xué)上推理它 —— 最多只能在直覺(jué)上做點(diǎn)推斷。
無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域長(zhǎng)久以來(lái)的夢(mèng)想。Sutskever 認(rèn)為這個(gè)目標(biāo)已經(jīng)在實(shí)驗(yàn)研究中達(dá)成,即模型在不被告知數(shù)據(jù)內(nèi)容的前提下觀察數(shù)據(jù)并發(fā)現(xiàn)其中存在的真實(shí)有用的隱藏結(jié)構(gòu)。
這是怎么發(fā)生的?我們能確保這一定會(huì)發(fā)生嗎?Sutskever 表示我們不能,畢竟我們?cè)跓o(wú)監(jiān)督學(xué)習(xí)方面沒(méi)有在監(jiān)督學(xué)習(xí)方面那樣的理論保證。
人們?cè)缭谏鲜兰o(jì) 80 年代就在探究無(wú)監(jiān)督學(xué)習(xí)了,當(dāng)時(shí)使用的術(shù)語(yǔ)也是類(lèi)似。在實(shí)驗(yàn)中,人們觀察到,當(dāng)數(shù)據(jù)量較小時(shí),不會(huì)出現(xiàn)無(wú)監(jiān)督學(xué)習(xí)現(xiàn)象,但是一些現(xiàn)在流行的開(kāi)發(fā)思路已經(jīng)出現(xiàn)了,比如 BERT、擴(kuò)散模型、老式的語(yǔ)言模型等。當(dāng)時(shí)的無(wú)監(jiān)督學(xué)習(xí)也能生成一些很酷的樣本,但當(dāng)然是比不上現(xiàn)在的技術(shù)。
但因?yàn)槲覀儾恢罒o(wú)監(jiān)督學(xué)習(xí)的工作方式,所以它一直都讓人困惑。
比如當(dāng)你針對(duì)某個(gè)目標(biāo)(比如圖像重建或預(yù)測(cè)下一個(gè)詞)進(jìn)行優(yōu)化時(shí),你可能也在意另一個(gè)目標(biāo)(比如圖像分類(lèi)或文檔分類(lèi)),而模型可能在這個(gè)未經(jīng)優(yōu)化的目標(biāo)上也能取得不錯(cuò)的表現(xiàn)。但為什么會(huì)這樣呢?不知道,實(shí)驗(yàn)結(jié)果就是如此。Sutskever 說(shuō)這就像是魔法。
難道我們就要放棄理論,在實(shí)證主義上一路走下去嗎?
我們知道無(wú)監(jiān)督學(xué)習(xí)是學(xué)習(xí)輸入分布中的結(jié)構(gòu),然后從中獲得有助于實(shí)現(xiàn)目標(biāo)的東西。但如果輸入分布是均勻分布(uniform distribution)呢?這時(shí)候各種無(wú)監(jiān)督學(xué)習(xí)算法都會(huì)失效。我們應(yīng)該怎么看待這種現(xiàn)象呢?Sutskever 表示我們需要做些假設(shè)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。