復旦大學教授肖仰華:ChatGPT 浪潮下,面向大模型如何做數(shù)據(jù)治理?(1)
由 ChatGPT 引起的大模型熱潮正席卷當下。眾所周知,大模型的建立離不開海量數(shù)據(jù),且大模型的最終效果取決于數(shù)據(jù)的質(zhì)量,數(shù)據(jù)越豐富、質(zhì)量越高,大模型表現(xiàn)效果越好。那么該如何針對大模型做數(shù)據(jù)的治理?
2月26日,由CSDN、《新程序員》、上海市人工智能行業(yè)協(xié)會主辦,百度飛槳、達觀數(shù)據(jù)、智源人工智能研究院協(xié)辦的全球人工智能開發(fā)者先鋒大會(GAIDC)“新程序員:人工智能新十年”論壇,復旦大學教授肖仰華以“面向大模型的數(shù)據(jù)治理”為主題,分享前瞻洞察與思考。肖仰華以下為肖仰華演講內(nèi)容,CSDN在不改變原意的基礎上進行編輯:語言模型成為人工智能發(fā)展新底座,預訓練的語言模型極大推動了自然語言處理(NLP)技術(shù)發(fā)展,成為語言智能的新范式、認知智能新底座。然而,大模型仍存在諸多問題:如隱私泄露,訓練大型語言模型的數(shù)據(jù)集通常很大,并且數(shù)據(jù)源較豐富,它們可能涉及名稱、電話號碼、地址等敏感個人數(shù)據(jù),即使以公開數(shù)據(jù)訓練也是如此,這可能導致語言模型輸出里涵蓋某些隱私細節(jié)。還可能會出現(xiàn)事實錯誤、邏輯錯誤等問題。肖仰華表示,大模型要發(fā)揮價值,需要構(gòu)建從數(shù)據(jù)產(chǎn)生、數(shù)據(jù)整理、模型訓練、模型適配到實際部署的完整生態(tài)系統(tǒng)。大模型的數(shù)據(jù)治理是保障大模型質(zhì)量的關(guān)鍵步驟,是當前國內(nèi)在大模型研究方面極為稀缺的內(nèi)容,是突破國外巨頭對國內(nèi)技術(shù)封鎖的關(guān)鍵。基于此,面向大規(guī)模的數(shù)據(jù)治理研究,可從以下三層架構(gòu)來思考:最底層是基于大模型的知識質(zhì)量評估體系、人在環(huán)中的大模型訓練優(yōu)化機制、復雜數(shù)據(jù)的預訓練機制等基礎理論,往上為樣本糾偏、樣本優(yōu)化、多模融合、知識注入、事實編輯、領(lǐng)域適配、價值對齊、認知提升等關(guān)鍵技術(shù),最上層是認知增強和推理增強,研究順序逐層推進。下面我們逐一分析具體的理論與技術(shù)。
基礎理論層
從上圖中觀察到,我們需重點建立大模型的知識質(zhì)量評估體系,突破人在環(huán)中的大模型訓練優(yōu)化方法,探索序列、日志、圖等復雜數(shù)據(jù)的預訓練機制,提升大模型在特定領(lǐng)域與任務中的質(zhì)量與性能。1、大模型的質(zhì)量評估體系。目前國內(nèi)的模型評估體系大部分關(guān)注語言層面,然而今天的大模型不單是語言智能的載體,在國外一些研究中,將大模型當做具備初級認知能力的智能體。因此在大模型質(zhì)量評估上,不能僅僅停留語言處理層面進行評測,更多地,更為迫切是需要從人類認知的角度借鑒思路建立大模型的完整的評測體系,比如從認知發(fā)育理論借鑒理論指引,大模型是否具有可逆思維、創(chuàng)造思維、抽象思維、數(shù)值思維等能力,大模型是否存在認知偏見、是否存在認知障礙。大模型的評測關(guān)系到我們是否有資格成為裁判員。我們不能滿足于只做運動員,我們更要成為裁判員,才能掌握大模型研究與應用的主動權(quán)。2、人在環(huán)中的大模型訓練優(yōu)化機制如今 ChatGPT 成功的重要原因是把對人類的反饋,通過強化學習的方式注入到大模型中。在ChatGPT中,人主要在以下兩個方面發(fā)揮作用:一是利用人類的標注數(shù)據(jù)對GPT進行有監(jiān)督訓練,二是收集多個不同的監(jiān)督模型(SFT)輸出,由人類對這些輸出進行排序并用來訓練獎賞模型。那么這里面的基于排序的反饋是不是最佳的方式?有否更好的人類反饋方式?另外,如何讓人以廉價成本實現(xiàn)高效大模型反饋?這里面仍有大量的問題需要研究和優(yōu)化。3、復雜數(shù)據(jù)的預訓練機制。針對代碼、基因、圖等復雜形態(tài)的數(shù)據(jù),如何實現(xiàn)不同形態(tài)復雜數(shù)據(jù)的高效預訓練?這里面存在大量的機會。
關(guān)鍵技術(shù)詳解
在研究面向大規(guī)模預訓練模型的數(shù)據(jù)治理理論與認知增強時,涉及樣本糾偏、樣本優(yōu)化、多模融合、知識注入、事實編輯、領(lǐng)域適配、價值對齊、認知提升等關(guān)鍵技術(shù)。大模型的領(lǐng)域適配肖仰華表示,在 ChatGPT 賽道上,國內(nèi)比國外發(fā)展稍晚。那么在通用大模型上,如何有機會實現(xiàn)彎道超車?我們不能被人牽著鼻子走,需要開辟大模型研究與應用的新賽道,在領(lǐng)域賽道形成核心競爭力。大模型有非常寬的知識底座,但是垂直領(lǐng)域的知識密集度以及推理復雜程度遠遠跟不上理論專家的要求和需求,因此我們不但需要有寬度的大模型,還需要有深度的大模型,來匹配領(lǐng)域需求。大模型樣本糾偏大模型樣本糾偏是大家最早意識到的問題,大模型的效果與“喂”進去的數(shù)據(jù)息息相關(guān)。如果喂進有偏差的數(shù)據(jù)機器就學到有偏差的知識,因此我們需要糾正樣本偏置,訓練公平的大模型。大模型的多模融合大模型的異質(zhì)多模融合是大模型實現(xiàn)跨模態(tài)理解的關(guān)鍵。目前很多大公司在做多模融合,但肖仰華建議“融合”不應局限在圖片、語音、視頻等,例如在工業(yè)場景,還涉及日志、傳感器數(shù)據(jù)、圖表等數(shù)據(jù)的融合。大模型的事實編輯大模型本質(zhì)上是統(tǒng)計模型,對于特定事實或信念的可控編輯存在巨大挑戰(zhàn)。需要讓大模型遺忘、記住特定事實,這是需要攻克的研究點。大模型的知識注入大模型缺乏人類的知識,特別是專業(yè)知識。如何將人類的各類認知,比如領(lǐng)域知識、概念層級、價值觀念注入到大模型?肖仰華表示,做好大模型的特定可控編輯、大模型的知識注入,是大模型往領(lǐng)域推廣和應用重要的問題。那么數(shù)學、物理、醫(yī)療、司法等知識如何植入進去?以往知識圖譜構(gòu)建大量的知識庫,是大模型在領(lǐng)域落地重要的助力工具。大模型的持續(xù)更新現(xiàn)有模型多是基于一次性的構(gòu)建過程,缺乏持續(xù)性知識獲取能力,如缺失大量新興實體(如新型冠狀肺炎),充斥過時知識等。另外,認知智能系統(tǒng)需要持續(xù)知識更新能力以應對現(xiàn)代的知識爆炸性增長,當前的大模型訓練代價太大,更新成本巨大、效率低下。針對大模型的持續(xù)更新,還需要大家做很多工作。大模型的樣本優(yōu)化大模型訓練的數(shù)據(jù)良莠不齊,需要進行精心的樣本選擇、樣本轉(zhuǎn)換、樣本清洗、提示注入,才能訓練得到高質(zhì)量大模型。肖仰華表示,還可以通過對大模型的異質(zhì)來源數(shù)據(jù)進行來源提示的增強,來顯著提升大模型的質(zhì)量。大模型的價值對齊肖仰華強調(diào)我們需重視大模型的價值對齊。目前現(xiàn)有大模型主要通過國外專家反饋訓練,其價值觀與國內(nèi)有很大不同,通過對人類反饋的強化學習,實現(xiàn)大模型與人類價值的對齊,例如可通過構(gòu)建匹配中式價值觀的反饋訓練樣本,通過強化學習引導大模型生成符合倫理與價值觀的回復。大模型通過感知與融合人類的反饋能夠?qū)崿F(xiàn)價值認知的對齊與增強。如在《Constitutional AI: Harmlessness from AI Feedback》提到,通過設定constitution,利用RLAIF(RL AI Feedback)&RLHF,CoT等方法讓大模型不逃避回答有爭議問題,輸出無害回答及解釋。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。