走向CV的通用人工智能:從GPT和大型語言模型中汲取的經(jīng)驗教訓 (上)
01
總 述
最近,由大型語言模型(LLM)提供支持的聊天系統(tǒng)出現(xiàn)了,并迅速成為在自然語言處理(NLP)中實現(xiàn)AGI的一個有前途的方向,但在計算機視覺(CV)中實現(xiàn)AGI的道路仍不清楚。人們可能會將這種困境歸因于視覺信號比語言信號更復雜,但我們有興趣找到具體的原因,并從GPT和LLM中吸取經(jīng)驗來解決這個問題。
在今天分享中,從AGI的概念定義開始,簡要回顧了NLP如何通過聊天系統(tǒng)解決廣泛的任務。該分析啟發(fā)我們,統(tǒng)一是CV的下一個重要目標。但是,盡管在這個方向上做出了各種努力,CV仍然遠遠不是一個像GPT這樣自然集成所有任務的系統(tǒng)。我們指出,CV的本質弱點在于缺乏從環(huán)境中學習的范式,而NLP已經(jīng)完成了文本世界中的任務。然后,我們想象一個管道,將CV算法放在世界范圍的可交互環(huán)境中,對其進行預訓練,以預測其動作的未來幀,然后用指令對其進行微調,以完成各種任務。我們希望通過大量的研究和工程努力來推動這一想法并擴大其規(guī)模,為此我們分享了我們對未來研究方向的看法。
02
背景
世界正在見證一場邁向通用人工智能(AGI)的史詩之旅,我們按照慣例將AGI定義為一種可以復制人類或其他動物所能完成的任何智力任務的計算機算法。具體來說,在自然語言處理(NLP)中,計算機算法已經(jīng)發(fā)展到可以通過與人類聊天解決廣泛任務的程度。一些研究人員認為,這些系統(tǒng)可以被視為AGI的早期火花。這些系統(tǒng)大多建立在大型語言模型(LLM)之上,并通過指令調優(yōu)進行了增強。它們配備了外部知識庫和專門設計的模塊,可以完成解決數(shù)學問題、生成可視化內容等復雜任務,體現(xiàn)了其理解用戶意圖和執(zhí)行初步思想鏈的強大能力。盡管在某些方面存在已知的弱點(例如,講述科學事實和被點名的人之間的關系),但這些開創(chuàng)性的研究已經(jīng)顯示出一種明顯的趨勢,即將NLP中的大多數(shù)任務統(tǒng)一為一個系統(tǒng),這反映了對AGI的追求。
與NLP中統(tǒng)一的快速進展相比,計算機視覺社區(qū)還遠遠不是統(tǒng)一所有任務的目標。常規(guī)的CV任務,如視覺識別、跟蹤、生成等,大多使用不同的網(wǎng)絡架構/或專門設計的通道進行處理。研究人員期待著像GPT這樣的系統(tǒng),它可以通過統(tǒng)一的提示機制處理廣泛的CV任務,但在實現(xiàn)單個任務的良好實踐和在廣泛的任務中推廣之間存在權衡。例如,為了報告目標檢測和語義分割中的高識別精度,最好的策略是在用于圖像分類的強大主干上設計特定的頭部模塊,并且這種設計通常不會轉移到其他問題。
因此,出現(xiàn)了兩個問題:(1)為什么CV的統(tǒng)一如此困難?(2) 為了實現(xiàn)這一目標,可以從GPT和LLM中學到什么?
為了回答這些問題,重新審視GPT,并將其理解為在文本世界中建立一個環(huán)境,并允許算法從交互中學習。CV研究缺乏這樣的環(huán)境。因此,算法無法模擬世界,因此它們對世界進行采樣,并學會在所謂的代理任務中獲得良好的性能。在經(jīng)歷了史詩般的十年深度學習之后,代理任務不再有意義地表明CV算法的能力;越來越明顯的是,繼續(xù)追求對它們的高精度可以使我們遠離AGI。
03
通用人工智能
人工智能是一場用機器或一套數(shù)學算法復制人類智能的持久戰(zhàn)?,F(xiàn)代人工智能于1956年在Dartmouth研討會上正式提出,社區(qū)為此開發(fā)了大量方法。實現(xiàn)人工智能至少有兩種不同的途徑:(i)符號人工智能,它試圖將世界形成一個符號系統(tǒng),并使用邏輯算法對其進行推理;(ii)統(tǒng)計人工智能,它試圖建立一個數(shù)學函數(shù)來表述輸入和輸出之間的關系,但該函數(shù)可能是近似的,甚至是無法解釋的。在過去的十年里,第二條道路占據(jù)了主導地位,特別是深度學習理論,這是連接主義方法思想的一部分。
簡而言之,AGI就是學習一個廣義函數(shù)a=π(s)。盡管形式很簡單,但老式的人工智能算法很難使用相同的方法、算法甚至模型來處理所有這些問題。在過去的十年里,深度學習提供了一種有效而統(tǒng)一的方法:人們可以訓練深度神經(jīng)網(wǎng)絡來近似函數(shù)a=π(s),而不知道它們之間的實際關系。強大的神經(jīng)網(wǎng)絡架構(如transformer)的出現(xiàn)甚至使研究人員能夠為不同的數(shù)據(jù)模式訓練一個模型。
實現(xiàn)AGI存在巨大困難,包括但不限于以下問題。
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。