色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > Meta研究員破解大模型逆轉(zhuǎn)詛咒,推出《語言模型物理學》

          Meta研究員破解大模型逆轉(zhuǎn)詛咒,推出《語言模型物理學》

          發(fā)布人:深科技 時間:2024-04-14 來源:工程師 發(fā)布文章
          大語言模型的誕生,切實地推進了人工智能的發(fā)展。但隨著模型越來越大、訓練數(shù)據(jù)越來越多,人們對于模型的了解反而越來越少。


          就拿大語言模型的典型代表 GPT-4 來說,即便時至今日,它依然會對一些在人類看來很簡單的問題,給出錯誤的回答(如下圖所示的兩個案例)。
          圖片圖丨案例截圖(來源:朱澤園)
          那么,這到底是 GPT-4 本身的問題,還是它的訓練數(shù)據(jù)不足,亦或是它的數(shù)學能力太弱?其他模型會有這個問題嗎?
          對于追求嚴謹?shù)目茖W家來說,有必要思考這一系列問題的原因,并嘗試發(fā)現(xiàn)其背后存在的普適性定律。
          6 個月前,來自 Meta 旗下的人工智能基礎研究實驗室(FAIR Labs)的朱澤園和合作者 MBZUAI 的李遠志教授,在研究大語言模型是“如何學習知識”的過程中,發(fā)現(xiàn)了一些意想不到的復雜情況。
          譬如:有些知識,模型可以記住,但說不出來;有些知識,模型可以說出來,但是無法推演。
          有些具備順序性的知識,比如成語“繼往開來”這四個字,始終是按順序出現(xiàn)的,所以不管大語言模型有多大以及訓練了多久,它都只能記住正序,而無法記住逆序知識。這種涉及到“知識的順序性”的現(xiàn)象,被學術(shù)界稱為“逆轉(zhuǎn)詛咒”。
          圖片圖丨逆轉(zhuǎn)詛咒的案例:如果一個事實大多只在一個方向上出現(xiàn),例如詩歌的上下句,那么即使是最有能力的大語言模型也無法反向回憶起這個事實。在該案例中,兩個模型顯然都知道這些歌詞的順序(左),但卻無法反向生成(右)(來源:arXiv [3])
          為了克服這一難題,近日,F(xiàn)AIR Labs 實驗室提出了一種替代訓練方案名為“逆轉(zhuǎn)訓練”,大致思路是對所有的數(shù)據(jù),都正向和“逆向”同時訓練兩次,然后通過尋找最可靠的“逆向”訓練方法,來效地解決逆轉(zhuǎn)詛咒問題。
          近日,相關(guān)論文以《逆轉(zhuǎn)訓練攻克逆轉(zhuǎn)詛咒》(Reverse Training to Nurse the Reversal Curse)為題在預印本平臺 arXiv 上發(fā)表[1]。
          作者包括 FAIR Labs 研究工程師奧爾加·戈洛夫涅娃(Olga Golovneva)、研究科學家朱澤園(Zeyuan Allen-Zhu)、研究科學家杰森·韋斯頓(Jason Weston)和研究科學家桑巴亞爾·蘇赫巴托爾(Sainbayar Sukhbaatar)。
          圖片圖丨相關(guān)論文(來源:arXiv
          圖片提出逆轉(zhuǎn)訓練方案,攻克大語言模型的逆轉(zhuǎn)詛咒難題


          其實,在探究大模型針對簡單的問題卻給出錯誤回答背后的原因時,朱澤園認為,過度追求大語言模型在基準數(shù)據(jù)集上的表現(xiàn),也可能讓人類和通用人工智能漸行漸遠。
          例如,最近發(fā)表在 Nature 上的 AlphaGeometry[2],是 DeepMind 開發(fā)的一個 AI 系統(tǒng),能夠解決國際數(shù)學奧林匹克競賽 30 道平面幾何題中的 25 道。
          但它的主算法卻是一個沒有 AI 參與的暴力搜索,搜索的步驟從數(shù)百條由人工挑選的引理中選擇。
          有沒有一種可能是,DeepMind 人工挑選了上百條為 30 道國際數(shù)學奧林匹克競賽題量身定做的引理呢?
          “我們對此表示質(zhì)疑(僅代表本團隊,并非 Meta 官方立場)。但從科學的角度來看,我們應該盡量避免人工干預,以防‘有多少人工,就有多少智能’?!?nbsp;朱澤園表示。
          圖片圖丨朱澤園(來源:朱澤園)
          基于類似以上的擔憂,朱澤園提出了“語言模型物理學”這一新概念。
          此概念主張,在物理學的啟發(fā)下化繁為簡,將“智能”分拆成多個維度,包括語法、知識、推理、解題等,并給每個維度創(chuàng)建全新的合成數(shù)據(jù),搭建理想化的大語言模型訓練和測試環(huán)境,以探索模型所具備的普適性定律。類似在真空中研究牛頓定律,或是理想環(huán)境下研究氣體方程。
          需要說明的是,研究人員并不應該局限于類似 GPT-4 這樣的個別模型,而是應該總結(jié)出在理想的數(shù)據(jù)集下,任何模型所展現(xiàn)出的普適性質(zhì)。
          “對于人工智能領域來說,通過在理想環(huán)境中去偽存真,我們可以排除數(shù)據(jù)作弊、人工挑選等因素,真正找出大語言模型的普適定律,并提出增強性能的方案?!敝鞚蓤@表示。
          據(jù)了解,《語言模型物理學》項目的第一部分專注于語法研究,第二部分側(cè)重于推理研究,第三部分則聚焦于知識研究,其他更多部分的研究也在積極推進中,并在 Meta 內(nèi)部立項,得到 FAIR 研究院的海量算力支持。
          “不過因為發(fā)現(xiàn)過多,僅是其中第三部分‘知識研究’就拆成了至少三篇論文 Part 3.1、3.2、3.3,每篇都有幾個甚至十幾個結(jié)論,均已在 arXiv 上發(fā)表?!敝鞚蓤@說。

          圖片

          圖 | 《語言模型物理學》第三部示意圖(來源:作者 twitter)
          對于發(fā)表在 Part 3.2 論文中的“知識的順序性”這一現(xiàn)象來說,朱澤園和李遠志最早是在理想環(huán)境中觀察到它,而后又在市面上可見的預訓練模型,如 GPT-4 和 LLaMA-2 中,驗證了它的存在。
          那么用“理想環(huán)境”而不是現(xiàn)實模型來做研究,有什么好處呢?
          譬如這個課題里,在理想環(huán)境中我們可以固定知識的順序,也不用擔心測試數(shù)據(jù)的污染。
          假如我們永遠都說“某某人,在 XXXX 年 X 月 XX 日出生”,以保證數(shù)據(jù)集中的知識都是人名在生日之前;然后,再提取出該數(shù)據(jù)集中一半的人員信息,訓練模型的逆向知識提取能力,比如“在 XXXX 年 X 月 XX 日出生的人,叫什么名字”。
          我們就會發(fā)現(xiàn),不管模型多大、訓練多久,它都只能對這一半的人完成逆向知識提?。ㄕ_率 100%,因為這一半人在訓練集里),而無法推演(generalize到剩下一半的人(正確率 0%)。
          圖片圖 | 在理想環(huán)境下,所有逆向知識提取的正確率都幾乎是 0(來源:arxiv[3])
          換言之,理想環(huán)境下,不僅可以將測試集和訓練集完全分開,也能讓數(shù)據(jù)量無限增大,甚至還可以把模型打開,觀察出“為什么”知識無法逆向提取,并得到提取知識的充分必要條件。
          更重要的是,理想環(huán)境下的研究,可以推廣到包括 GPT-4 在內(nèi)的現(xiàn)實模型上,也能觀察到“逆轉(zhuǎn)詛咒”。
          比如,除了如上所說的成語逆轉(zhuǎn),還可以向大語言模型詢問“西出陽關(guān)無故人”的上一句話,或是給出百科上名人的出生年月日/工作單位/城市,來反問大語言模型這個人名是誰。
          “大量的測試告訴我們,現(xiàn)實模型也無法很好地回答這樣的逆序知識類問題?!敝鞚蓤@說。
          不過,需要指出的是,在現(xiàn)實模型上很難確定造成這些錯誤回答的原因,究竟是模型訓練得不夠久,還是數(shù)據(jù)不夠多。
          即便現(xiàn)實模型答對了,會不會它的訓練數(shù)據(jù)中看到了原題(也就是數(shù)據(jù)污染)。綜上,在現(xiàn)實模型上直接研究,很難得到令人信服的、科學的結(jié)論。
          “這就是為什么我們要做《語言模型物理學》的原因,即希望探索出一種全新的研究 AI 模型的思路?!敝鞚蓤@表示。
          發(fā)現(xiàn)問題是一方面,要想解決“逆轉(zhuǎn)詛咒”,就是一個新的延伸課題了。為此,朱澤園和 FAIR Labs 實驗室的“推理記憶”課題組聯(lián)手,基于理想環(huán)境中的發(fā)現(xiàn),給出現(xiàn)實生活中的一個解決方案——隨機拆詞反轉(zhuǎn)訓練。
          主要是把每 1-25 個連續(xù) token(對應約 1-15 個英語單詞)隨機拆成一組,在保持每組順序不變的前提下,將整個文章進行反轉(zhuǎn)。
          同時使用正向的原文,和反轉(zhuǎn)后的文字對語言模型進行訓練。如果同一數(shù)據(jù)會多次進行反轉(zhuǎn)訓練,則可以每次用不同的隨機方法拆詞,這在無形之中增加了數(shù)據(jù)的多樣性,從而增強大模型對知識的存取效率。
          從另一方面來看,隨機拆詞并翻轉(zhuǎn)也模擬了人類速讀。也就是說,當我們快速閱讀一段文字的時候,眼睛也在進行隨機拆解,甚至也會無序地閱讀。包括在學習重要知識時,還會前后翻書和反復閱讀。
          研究人員將上述方法稱為“逆轉(zhuǎn)訓練”,并且在 LLaMA-2 模型上做了真實數(shù)據(jù)的測試。

          圖片

          圖 | 在真實 LLaMA-2 模型上測試,逆轉(zhuǎn)訓練可以攻克逆轉(zhuǎn)詛咒(來源:arxiv[1])

          同時,他們還得到了一個重要的發(fā)現(xiàn):如果正反向都進行訓練,既不會影響正向的訓練結(jié)果,又不會讓傳統(tǒng)的基準數(shù)據(jù)集得分降低。


          對于《語言模型物理學》系列作品給應用領域帶來的影響,朱澤園認為會是非常全面的。作為該系列作品的一個衍生成果,《逆轉(zhuǎn)訓練攻克逆轉(zhuǎn)詛咒》很可能在幫助解決大語言模型的諸多問題之一的同時,在所有公司的所有應用場景中得到應用。
          “當然,一切的理論研究走到實際落地都有一個過程。我歡迎所有的研究人員參考我們論文給出的理論指導建議,在實際應用中找到增益?!敝鞚蓤@說。
          另外,值得一提的是,2024 年 7 月,朱澤園將在 ICML 2024 上,受邀開展《語言模型物理學》系列講壇(tutorial課程。
          圖片

          致力于挑戰(zhàn)人工智能的每個維度,希望探索出大語言模型的普適性物理定律


          據(jù)了解,朱澤園本科就讀于清華大學物理系,博士畢業(yè)于美國麻省理工計算機系,是圖靈獎得主希爾維奧·米卡利(Silvio Micali)教授的弟子,后在美國普林斯頓大學和從事博士后研究,師從剛剛獲得圖靈獎的艾維·維格森(Avi Wigderson)教授。


          他曾是國際信息學奧林匹克競賽兩屆金牌、國際大學生程序設計競賽全球總決賽金牌的獲得者,也在谷歌全球編程挑戰(zhàn)賽(Google Code Jam)中獲得世界第二的成績。
          在 2022 年加入 FAIR Labs 之前,朱澤園曾在微軟研究院總部任職。
          “加入 FAIR Labs 以后,我被給予了 100% 的科研自由,可以獨立發(fā)起項目,選擇我認為最重要的人工智能課題進行長期研究?!墩Z言模型物理學》項目,就是我所負責的長期項目?!敝鞚蓤@介紹說。
          如上所說,《逆轉(zhuǎn)訓練攻克逆轉(zhuǎn)詛咒》,是該項目的一個衍生課題。
          不過,在最早參與該課題時,朱澤園并不十分“積極”。這主要是因為他考慮到精力有限,所以對參與科研課題一貫持謹慎態(tài)度。
          “當這一課題負責人蘇赫巴托爾聯(lián)系我時,我從理論的角度出發(fā),告訴他已經(jīng)在理想環(huán)境下證明了數(shù)據(jù)反向訓練有效。所以,我認為逆轉(zhuǎn)訓練這個方法太過簡單,只需要多做點大規(guī)模的實驗而已?!彼f。
          但蘇赫巴托爾反問道:“那你當初為什么要發(fā)表 LoRA 呢?”
          這個問題促使朱澤園進行了長時間的思考和反省,并最終做出了改變想法的決定。
          其中,LoRA 是朱澤園在微軟研究院供職時參與開發(fā)的一個簡單有效的微調(diào)工具。當時他也曾認為該工具過于簡單,但如今后者已經(jīng)成為行業(yè)內(nèi)最常用的微調(diào)算法,業(yè)內(nèi)幾乎無人不曉。
          逆轉(zhuǎn)訓練攻克逆轉(zhuǎn)詛咒課題開始進行之后,朱澤園和合作者發(fā)現(xiàn)不同的逆轉(zhuǎn)訓練策略在效果上存在差異,與他們最初的預期不同。對此,他們也在論文中進行了詳細的比較。
          “總的來說,如果一個算法簡易且有用,還不需要復雜的數(shù)學公式,這不正是我們?nèi)祟愖钕M@得的嗎?”朱澤園表示。
          另外,在目前研究的基礎上,他告訴我們,《語言模型物理學》項目也制定了后續(xù)計劃,包括 2 個月內(nèi)可以發(fā)布的項目第二部分“語言模型推理研究”的兩篇論文,會在理想環(huán)境下研究并提高 AI 模型在小學數(shù)學題上的推理能力等。
          朱澤園說:“我們有一個很遠大的目標,那就是在理想的環(huán)境里去偽存真,挑戰(zhàn)人工智能的每一個維度,總結(jié)出大語言模型的普適物理定律?!?/span>
          與此同時,他也認為,致力于研究理想環(huán)境下的大語言模型的《語言模型物理學》項目,與大部分科研都不相同。
          “在我眼中,這仿佛是一個新的學科和一個新的研究問題的方式,非常刺激。因此,我?guī)缀跬O铝耸稚弦磺锌蒲蟹较颍硇牡負湎蚱渲??!彼硎尽?/span>
          即便在研究過程中受到諸多批評和質(zhì)疑,包括測得的數(shù)據(jù)是否過于理想化、可能太過局限,以及和實際有差異等,但他對此卻依然毫不擔心。
          他始終奉行堅持日心說的意大利科學家喬爾丹諾·布魯諾(Giordano Bruno)曾經(jīng)說過的這句話,“真理不會因為大多數(shù)人相信或不相信而改變”。


          參考資料:1. O.,Golovneva, Z., Allen-Zhu, J., Weston. et al. Reverse Training to Nurse the Reversal Curse. arXiv:2403.13799v1(2024).https://doi.org/10.48550/arXiv.2403.137992. Trinh, T.H., Wu, Y., Le, Q.V. et al. Solving olympiad geometry without human demonstrations. Nature 625, 476–482 (2024). https://doi.org/10.1038/s41586-023-06747-53. Z. Allen-Zhu, Y. Li. Physics of Language Models: Part 3.2, Knowledge Manipulation.arXiv:2309.14402(2023). https://arxiv.org/abs/2309.144027
          排版:劉雅坤



          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: Meta

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉