復(fù)旦邱錫鵬:深度剖析 ChatGPT 類大語言模型的關(guān)鍵技術(shù)
ChapGPT 自問世以來,便展現(xiàn)出了令世人驚艷的對話能力。僅用兩個月時間,ChatGPT 月活躍用戶就達(dá)一億,是史上用戶增速最快的消費(fèi)應(yīng)用。對于學(xué)術(shù)界、工業(yè)界、或是其他相關(guān)應(yīng)用來說都是一個非常大的機(jī)會和挑戰(zhàn)。
事實(shí)上,ChatGPT 的成功并不是偶然結(jié)果,其背后多有哪些創(chuàng)新之處,本文整理于「ChatGPT 及大模型專題研討會」上復(fù)旦大學(xué)邱錫鵬教授帶來的《對話式大型語言模型》的分享,他從大規(guī)模預(yù)訓(xùn)練語言模型帶來的變化、ChatGPT 的關(guān)鍵技術(shù)及其局限性等角度深入地介紹了大規(guī)模語言模型的相關(guān)知識。
邱錫鵬,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授,MOSS 系統(tǒng)負(fù)責(zé)人
為什么是大語言模型?
隨著算力的不斷提升,語言模型已經(jīng)從最初基于概率預(yù)測的模型發(fā)展到基于 Transformer 架構(gòu)的預(yù)訓(xùn)練語言模型,并逐步走向大模型的時代。為什么要突出大語言模型或是在前面加個“Large”?更重要的是它的涌現(xiàn)能力。
當(dāng)模型規(guī)模較小時,模型的性能和參數(shù)大致符合比例定律,即模型的性能提升和參數(shù)增長基本呈線性關(guān)系。然而,當(dāng) GPT-3/ChatGPT 這種千億級別的大規(guī)模模型被提出后,人們發(fā)現(xiàn)其可以打破比例定律,實(shí)現(xiàn)模型能力質(zhì)的飛躍。這些能力也被稱為大模型的“涌現(xiàn)能力”(如理解人類指令等)。
上圖是多個 NLP 任務(wù)隨著模型規(guī)模擴(kuò)大的性能變化曲線,可以看到,前期性能和模型規(guī)模大致呈線性關(guān)系,當(dāng)模型規(guī)模大到一定程度時,任務(wù)性能有了明顯的突變。
因此,通常以百億/千億級參數(shù)量作為 LLM 研究的分水嶺。除此之外,大規(guī)模語言模型基座的可擴(kuò)展性很強(qiáng),其能夠很容易和外部世界打通,源源不斷地接受外部世界的知識更新,進(jìn)而實(shí)現(xiàn)反復(fù)自我迭代。因此,大規(guī)模語言模型也被看作是實(shí)現(xiàn)通用人工智能的希望。
ChatGPT的三個關(guān)鍵技術(shù)
目前,很多公司和組織都在跟風(fēng) ChatGPT,推出類似的聊天機(jī)器人產(chǎn)品。這主要是因?yàn)?ChatGPT 的成功,給人們帶來了信心,證明了聊天機(jī)器人技術(shù)的可行性和潛力,讓人們看到了聊天機(jī)器人在未來的巨大市場和應(yīng)用前景。
ChatGPT 的三個關(guān)鍵技術(shù)為:情景學(xué)習(xí)、思維鏈、自然指令學(xué)習(xí),接下來將詳細(xì)介紹一下這三個技術(shù)。
情景學(xué)習(xí)(In-context learning)
改變了之前需要把大模型用到下游任務(wù)的范式。對于一些 LLM 沒有見過的新任務(wù),只需要設(shè)計(jì)一些任務(wù)的語言描述,并給出幾個任務(wù)實(shí)例,作為模型的輸入,即可讓模型從給定的情景中學(xué)習(xí)新任務(wù)并給出滿意的回答結(jié)果。這種訓(xùn)練方式能夠有效提升模型小樣本學(xué)習(xí)的能力。
情景學(xué)習(xí)的示例圖
可以看到,只需要以自然語言的形式描述兩個情感分類任務(wù)輸入輸出的例子,LLM 就能夠?qū)π螺斎霐?shù)據(jù)的情感極性進(jìn)行判斷。例如,做一個電影的評論,給出相應(yīng)的任務(wù)模型,即可輸出正面的回答。
思維鏈(Chain-of-Thought,CoT)
對于一些邏輯較為復(fù)雜的問題,直接向大規(guī)模語言模型提問可能會得到不準(zhǔn)確的回答,但是如果以提示的方式在輸入中給出有邏輯的解題步驟的示例后再提出問題,大模型就能給出正確題解。也就是說將復(fù)雜問題拆解為多個子問題解決再從中抽取答案,就可以得到正確的答案。
思維鏈?zhǔn)疽鈭D
如思維鏈?zhǔn)疽鈭D所示,左邊是直接讓模型進(jìn)行數(shù)學(xué)題的計(jì)算會得到錯誤的結(jié)果,而右側(cè)在解題過程加入了一個示例,引入解題過程則可以激發(fā)模型的推理能力,從而得到的正確的結(jié)果。
這就是一個簡單的可以通過計(jì)算能力從思維鏈中分離,有助于大模型完成任務(wù),從而減輕神經(jīng)網(wǎng)絡(luò)的負(fù)擔(dān)。
由于 CoT 技術(shù)能夠激發(fā)大規(guī)模語言模型對復(fù)雜問題的求解能力,該技術(shù)也被認(rèn)為是打破比例定律的關(guān)鍵。
自然指令學(xué)習(xí)(Learning from Natural Instructions)
早期研究人員希望把所有的自然語言處理任務(wù)都能夠指令化,對每個任務(wù)標(biāo)注數(shù)據(jù)。這種訓(xùn)練方式就是會在前面添加一個“指令”,該指令能夠以自然語言的形式描述任務(wù)內(nèi)容,從而使得大模型根據(jù)輸入來輸出任務(wù)期望的答案。該方式將下游任務(wù)進(jìn)一步和自然語言形式對齊,能顯著提升模型對未知任務(wù)的泛化能力。
自然指令學(xué)習(xí)示意圖
如自然指令學(xué)習(xí)示意圖所示,左邊是自然指令的測試場景,人們把 NLP 任務(wù)做到 1000 多種,目前最新模型可以做到 2000 多種 NLP 任務(wù),接下來再對 NLP 任務(wù)進(jìn)行分類,比如能力 A、能力 B,大模型指令能力、泛化能力非常強(qiáng),學(xué)到四五十個任務(wù)時就可以泛化到上百種任務(wù)。但距離真正的 ChatGPT 還有一步,那就是和真實(shí)的人類意圖對齊,這就是 OpenAI 做的 GPT。
核心邏輯非常簡單,一開始時讓人寫答案,但是成本太高,改成讓人來選答案,這樣對標(biāo)注員的能力要求稍微低一點(diǎn),可以迅速提升迭代和規(guī)模?;诖蚍衷?/span>訓(xùn)練一個打分器,通過打分器自動評價(jià)模型的好壞,然后用強(qiáng)化學(xué)習(xí)開始迭代,這種方法可以大規(guī)模地把數(shù)據(jù)模型迭代給轉(zhuǎn)起來,這是 OpenAI 做的 Instruct GPT 邏輯,強(qiáng)化學(xué)習(xí)的人類反饋。
Instruct GPT 邏輯示意圖
基于 Instruct GPT 技術(shù)路線,ChatGPT 從技術(shù)上并沒有特別好的創(chuàng)新,但它最偉大之處是賦予了大型語言模型對話的能力,這是個產(chǎn)品化創(chuàng)新,這個創(chuàng)新非常棒!
如何構(gòu)建一個大語言模型?
目前,主要可以從下面四個維度來衡量大語言模型的能力。
Know Knowns:LLM 知道它知道的東西。
Know Unknowns:LLM 知道它不知道哪些東西。
Unknow Knowns:LLM 不知道它知道的東西。
Unknow Unknowns:LLM 不知道它不知道的東西。
構(gòu)建對話式大型語言模型
ChatGPT 通過更大規(guī)模的預(yù)訓(xùn)練,得到了更多的知識,即 Knowns 范圍擴(kuò)大。
另外,ChatGPT 還關(guān)注了倫理問題,通過類似解決 Know Unknowns 的方式,利用人工標(biāo)注和反饋,拒絕回答一些包含倫理問題的請求。
這里,我們也不得不提國內(nèi)首個對話式大型語言模型 MOSS,從 2 月 21 日發(fā)布至公開平臺,便引起高度關(guān)注。“對話式大型語言模型 MOSS 大概有 200 億參數(shù)。和傳統(tǒng)的語言模型不一樣,它也是通過與人類的交互能力進(jìn)行迭代?!?/span>邱錫鵬教授在分享中談到,MOSS 為何會選擇 200 億參數(shù),原因非常簡單,它恰好具備涌現(xiàn)能力,與人對話的成本低。
MOSS 是基于公開的中英文數(shù)據(jù)訓(xùn)練,通過與人類交互能力進(jìn)行迭代優(yōu)化。目前 MOSS 收集了幾百萬真實(shí)人類對話數(shù)據(jù),也在進(jìn)一步迭代優(yōu)化,也具有多輪交互的能力,所以對于指令的理解能力上,通用的語義理解能力上,和ChatGPT 非常類似,任何話它都能接得住,但它的質(zhì)量沒有 ChatGPT 那么好,原因在于模型比較小,知識量不夠。
ChatGPT 的局限性
為什么說 ChatGPT 對于學(xué)術(shù)上來說有一定的重要性,因?yàn)樗粌H展示了通用人工智能的大框架,更是因?yàn)樗梢越尤攵嗄B(tài)信息,增強(qiáng)思考能力、增加輸出能力,從而變成更好的通用人工智能底座,可以在學(xué)術(shù)上帶來更多的應(yīng)用。
相較于 ChatGPT 本身的能力而言,它的局限性相對較少且都比較容易解決。圖靈獎得主、人工智能三巨頭之一 Yann LeCun 認(rèn)為 ChatGPT 的缺點(diǎn)有以下幾點(diǎn):
目前形式有限。當(dāng)前的 ChatGPT 僅局限于文本方向,但如前面所說,可以在上游使用一些多模態(tài)模型初步解決這個問題。
并不可控。目前已有不少報(bào)道通過各種方式解鎖了模型的 Ethic 和部分 Know Unknowns 限制,但這部分可以通過更多的人工標(biāo)注和對齊解決。
推理能力較差。通過思維鏈的方式,一定程度上可以增強(qiáng)模型推理能力。
無法與現(xiàn)實(shí)世界相接觸。這也是目前 ChatGPT 最大的問題之一,作為大型語言模型,它無法實(shí)時與外部世界互動,也無法利用如計(jì)算器,數(shù)據(jù)庫,搜索引擎等外部工具,導(dǎo)致它的知識也相對落后。
而未來它更應(yīng)該做到提高適時性、即時性、無害等等。
總的來說,如果將 LLM 作為智能體本身,能夠與外部交互之后,這些模型的能力一定會有更大的提升。
但我們要始終保證這些 AI 模型的模型可信:有助、無害、誠實(shí)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。