OpenAI到底做對了什么?(1)
OpenAI通過一系列在AI技術(shù)和產(chǎn)品上的突破,引爆了通用人工智能(AGI)的發(fā)展,被微軟CEO 薩提亞 · 納德拉稱為“堪比工業(yè)革命的技術(shù)浪潮”。OpenAI趟出來的以大語言模型為主的AGI技術(shù)路線,也基本上宣告了其他AI技術(shù)路線的終結(jié),這樣以一己之力改變整個領(lǐng)域航道的,在技術(shù)史上也是空前絕后。一個區(qū)區(qū)兩三百人(在去年底推出ChatGPT時,OpenAI團(tuán)隊大約270人)的創(chuàng)業(yè)公司,何以在眾多巨頭逐鹿多年的AI競技場一路披荊斬棘,摘得通用人工智能的圣杯?無論在硅谷,還是在國內(nèi),很多人都在問:
為什么AGI這樣史詩級的革命,背后的核心推手竟然是OpenAI這樣的創(chuàng)業(yè)公司?OpenAI到底做對了什么?
我自從2016年開始一直追蹤研究AI領(lǐng)域的產(chǎn)業(yè)發(fā)展,每年籌辦全球機器學(xué)習(xí)技術(shù)大會(ML-Summit)的工作原因,陸續(xù)和很多來自O(shè)penAI的專家、包括Ilya Sutskever(首席科學(xué)家)、Lukasz Kaiser(Transformer共同發(fā)明人)、Andrej Karpathy(聯(lián)合創(chuàng)始人)、Ian goodfellow(GAN之父)等經(jīng)常接觸和交流。很早就注意到了OpenAI這個在AI領(lǐng)域特立獨行的“異類”。
如果回看AI產(chǎn)業(yè)的發(fā)展歷史,和OpenAI歷史道路上的諸多關(guān)鍵選擇,我?guī)缀躞@嘆地發(fā)現(xiàn),作為一家創(chuàng)業(yè)公司,OpenAI在每一次關(guān)鍵的岔路口上,都毫不猶豫地選擇了“難而正確”的決定?;仡橭penAI發(fā)展歷史上這些“難而正確”的選擇,我覺得對于我們今天很多AI領(lǐng)域的同行者會有重要的啟發(fā)。
愿景和使命:劍指通用人工智能
「我們的目標(biāo)是以造福全人類的方式推進(jìn)人工智能。今天的AI系統(tǒng)雖然令人驚嘆,但很多表現(xiàn)又不免差強人意。但在未來,AI極有可能在幾乎所有智力任務(wù)上達(dá)到人類的表現(xiàn)。這項事業(yè)的結(jié)果是不確定的,工作是困難的,但我們相信我們的目標(biāo)和結(jié)構(gòu)是正確的?!?/span>
這段話是我摘抄自O(shè)penAI 在2015年12月剛成立不久創(chuàng)始團(tuán)隊發(fā)表的“愿景和使命”博客中的一段文字。八年后的今天讀來,感受仍然是真誠和激蕩的。
OpenAI能夠在2015年整個AI領(lǐng)域被各種迷霧籠罩的時候,就提出“通用人工智能”這一強大的“愿景和使命”,是建立在創(chuàng)始團(tuán)隊對人工智能的堅實信仰、深刻理解和現(xiàn)狀研究基礎(chǔ)之上的,我將這些合稱為對通用人工智能的“愿力”。這樣的“愿力”,幫助OpenAI此后在人工智能的發(fā)展道路上一次次守正出奇。
“愿景和使命”在今天浮躁的創(chuàng)投圈,很容易被異化為“忽悠VC和給員工畫餅”。但如果研究人類科技發(fā)展史,你會發(fā)現(xiàn)在一個領(lǐng)域提出強大的“愿景和使命”,是成為一個領(lǐng)域拓荒者的鮮明特征。反過來說,但凡革命性的事情,都有極大的難度,沒有強大的“愿景和使命”指引,遇到困難就很容易放棄和潰散。因此,對于那些堅定信仰的創(chuàng)業(yè)者,我鼓勵大家大聲講出你的“愿景和使命”。我也希望我們的創(chuàng)投界、媒體界對于創(chuàng)業(yè)者的“愿景和使命”要鼓勵支持、而非奚落鞭撻。
我時常在想如果將時間拉回到2015年,如果30歲的Sam Altman和29歲的Ilya Sutskever這兩位毛頭小子在我們的某個創(chuàng)投活動上講出上述“愿景和使命”,是不是會被一眾“大佬”唾沫星子淹死?事實是OpenAI在成立時就獲得了大約1億美金的捐贈,彼時OpenAI還是以非贏利性組織的方式成立的。
技術(shù)路線一:無監(jiān)督學(xué)習(xí)
OpenAI剛成立不久,就在Ilya Sutskever的領(lǐng)導(dǎo)下下注“無監(jiān)督學(xué)習(xí)”這條道路。熟悉AI研究領(lǐng)域的朋友都知道,今天這個看起來無比正確的決定,在2015-2016年,絕對不是那么顯而易見。因為彼時的人工智能領(lǐng)域,通過標(biāo)注數(shù)據(jù)方法的“監(jiān)督學(xué)習(xí)”大行其道,在很多垂直領(lǐng)域比如推薦系統(tǒng)、機器視覺等,效果也更好。
而“無監(jiān)督學(xué)習(xí)”在理論突破和工程技術(shù)上彼時都非常不成熟,效果也大打折扣,屬于典型的“非主流”。但無需人工標(biāo)注數(shù)據(jù)的“無監(jiān)督學(xué)習(xí)”具有強大的普適性、且易擴展,通過大規(guī)模的數(shù)據(jù)預(yù)訓(xùn)練,模型就能學(xué)到數(shù)據(jù)中蘊涵的人類豐富的知識,從而在各類任務(wù)中大顯身手。對于“通用人工智能”這一目標(biāo)來說,“無監(jiān)督學(xué)習(xí)”顯然具有“任務(wù)的普適性”和依據(jù)海量數(shù)據(jù)進(jìn)行快速“scale(擴展)”的能力。
今天來看,很多“監(jiān)督學(xué)習(xí)”方法都被OpenAI的“無監(jiān)督學(xué)習(xí)”大幅甩開,但在當(dāng)時選擇“無監(jiān)督學(xué)習(xí)”顯然屬于“難而正確”的決定,這樣的關(guān)鍵道路選擇和OpenAI對AGI的愿景是密不可分的。
技術(shù)路線二:生成式模型
當(dāng)2016年,各種“識別”類任務(wù)(如視覺識別、語音識別等)大行其道時,OpenAI在2016年6月發(fā)表《生成式模型(Generative Models)》中開篇就引用著名物理學(xué)家費曼的名言“What I cannot create, I do not understand. 如果不能創(chuàng)造,就無法理解”。也將OpenAI的研究重心放在生成式任務(wù)上。
而彼時雖然有Ian goodfellow 發(fā)明的GAN(生成式對抗網(wǎng)絡(luò))的驚艷時刻,但它的不可解釋性,以及相較于識別類任務(wù)的“有用”,總體上,主流的人工智能業(yè)界其實對于生成式模型的判斷是“難度大,但用處不大”。
但通讀《生成式模型(Generative Models)》文章中,可以看出OpenAI團(tuán)隊對于生成式模型是“AGI必經(jīng)之路”的堅定,就能體會出OpenAI團(tuán)隊卓爾不群、堅定自我的特質(zhì)。
技術(shù)路線三:自然語言
雖然在2012年深度學(xué)習(xí)進(jìn)入工業(yè)界成為主流方法之后,機器視覺很快成為更為成熟、效果更好、變現(xiàn)能力也更強的領(lǐng)域。雖然Ilya Sutskever也是通過AlexNet參加ImageNet大賽拔得頭籌而在機器視覺領(lǐng)域一戰(zhàn)成名,但OpenAI在做了一些嘗試之后并沒有選擇視覺作為主攻方向,而是選擇了押注更難、更險的“自然語言”。
相對視覺、語音等領(lǐng)域,自然語言處理長期被認(rèn)為是相對落后的領(lǐng)域,因為自然語言任務(wù)具有巨大的復(fù)雜性和解空間,很多方法在某一個單一任務(wù)上可以,但放到另一任務(wù)上就表現(xiàn)很差,起伏不定。業(yè)界也有說法,自然語言處理是人工智能領(lǐng)域的“圣杯”。
在嘗試OpenAI Gym(開源強化學(xué)習(xí)平臺)和OpenAI Five(使用強化學(xué)習(xí)打Dota2游戲)的同時,OpenAI在使用無監(jiān)督學(xué)習(xí)來進(jìn)行自然語言的任務(wù)上走的越來越遠(yuǎn)。特別是2017年通過生成式方式來預(yù)測 Amazon 評論的下一個字符,取得了很棒的效果。
為什么OpenAI選擇押注自然語言?套用著名哲學(xué)家維特根斯坦“語言的邊界就是世界的邊界”。如果用Ilya Sutskever的話來說 “語言是世界的映射,GPT是語言的壓縮”。就人類智能而言,自然語言是核心中的核心,而其他視覺、語音等都不過是自然語言的輔助佐料。
正是有了對自然語言通向AGI道路信仰般的押注,等到2017年6月12日Google的Transformer奠基性論文《Attention is All You Need》一發(fā)布,用Ilya Sutskever的原話說論文發(fā)表的第二天,他看到論文后的第一反應(yīng)是“就是它了”。Transformer模型從理論上顛覆了前代RNN、LSTM等自然語言處理方法,掃清了OpenAI團(tuán)隊苦苦探索自然語言領(lǐng)域的一些關(guān)鍵障礙。
然而遺憾的是,Transformer這一理論模型并沒有在Google內(nèi)部得到足夠的重視,反倒讓OpenAI團(tuán)隊如獲至寶。這一幕像極了1979年喬布斯參觀施樂PARC研究院的Alto電腦上的圖形界面(GUI)和鼠標(biāo)后,回到蘋果就開始押注圖形界面并開啟了轟轟烈烈的個人電腦時代,而施樂PARC的領(lǐng)導(dǎo)層卻遲遲看不到GUI向普通大眾釋放的巨大計算潛力。而親自打造Transformer的七位共同發(fā)明人后來也陸續(xù)離開Google,有的加入OpenAI(包括我們2021年全球機器學(xué)習(xí)技術(shù)大會的keynote speaker、OpenAI研究科學(xué)家Lukasz Kaiser),有的在硅谷VC支持下創(chuàng)辦新一代人工智能公司。很有點當(dāng)年硅谷仙童半導(dǎo)體“八叛徒”的昨日重現(xiàn)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。