色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > 港中文團(tuán)隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系

港中文團(tuán)隊提出大模型元推理范式，助力判斷大模型的真實能力，革新大模型的評價體系

發(fā)布人：深科技時間：2024-03-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

曾忠燊，是一名潮汕人。其本科和碩士分別畢業(yè)于美國伊利諾伊大學(xué)和美國佐治亞理工學(xué)院。在本科畢業(yè)和碩士畢業(yè)之后，他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過一段時間。

在 ChatGPT 面世以后，他意識到針對大模型的研究范式存在一定的不足，于是決定來到香港中文大學(xué)讀博。

圖 | 曾忠燊（來源：曾忠燊）

前不久，曾忠燊和所在團(tuán)隊提出一個全新評測范式?；谶@一評測范式，他們又針對現(xiàn)有數(shù)據(jù)集，提出了一種改造方法。

實驗證明，這種方法能有效區(qū)分不同模型的能力差異。同時，他們還揭示了這種全新評測范式對于當(dāng)前數(shù)據(jù)污染的魯棒性。

此前，由于訓(xùn)練數(shù)據(jù)的不透明，人們無法得知大模型在一些榜單上的成績提升，是否是數(shù)據(jù)污染和題目泄露所帶來的。

而本次提出的全新評測范式，對于“背題”式的成績提高有著極強(qiáng)的抵御能力。憑借這種抵御能力，就能對絕大部分的數(shù)據(jù)集進(jìn)行“舊改”。

同時，這種全新的評測方式不僅可以揭示大模型的能力差異，也能給下游應(yīng)用帶來一定啟示。

日前，相關(guān)論文以《大型語言模型評價中的元推理革命》（MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation）為題發(fā)在 arXiv，曾忠燊是第一作者，香港中文大學(xué)教授賈佳亞擔(dān)任通訊作者 [1]。

圖 | 相關(guān)論文（來源：arXiv）

大模型也在依靠“題海戰(zhàn)術(shù)”？

“背題”“題海戰(zhàn)術(shù)”，是許多人在讀書時代都曾使用過的學(xué)習(xí)方式。然而，你可知道大模型其實也在使用這兩種學(xué)習(xí)方式？此外，當(dāng)前大模型的能力邊界到底在哪里？

從推理和認(rèn)知這兩個能力維度出發(fā)，當(dāng)一篇論文稱大模型在一個評測指標(biāo)上取得超出人類水平的結(jié)果時，我們是否應(yīng)該感到恐慌？

還是仔細(xì)審視在制定指標(biāo)時是否忽略了什么因素，以至于大模型的認(rèn)知能力被夸大了？

事實上，對于指標(biāo)的設(shè)計意義思考不足，起碼會帶來以下幾個潛在危害：

其一，評測結(jié)果能否真實反映大模型的能力？如果對此認(rèn)識不足，往往會過分夸大模型的效果。

其二，會讓人以為指標(biāo)的提升，等價于大模型能力的提升、以及等價于真實場景的效果和實用性提升，導(dǎo)致盲目追逐和攀比榜單效果，陷入惡性循環(huán)。

其三，過分關(guān)注和比較在細(xì)分場景上的表現(xiàn)，忽視了大模型整體認(rèn)知能力的提升。

當(dāng)前，面向大模型推理能力和認(rèn)知能力的評測集，主要依賴一些標(biāo)準(zhǔn)化考試的試題、或一些精心設(shè)計的規(guī)則類游戲。

這些評測集的設(shè)計初衷，很大程度上是設(shè)計者認(rèn)為求解這類推理類任務(wù)所需要的模式識別、記憶召回、分析假設(shè)、歸納演繹等能力，是一種處理所有任務(wù)都需要的“元”能力，并認(rèn)為這類能力對于大模型在現(xiàn)實場景中的泛化和魯棒是至關(guān)重要的。

但是，具體到設(shè)計這些任務(wù)的評測方式時，這些評測集往往僅僅依賴于對最終計算結(jié)果的簡單匹配，而忽略了對于計算過程的認(rèn)知檢測。

由此可見，這種目標(biāo)和實現(xiàn)方式的背離，在很大程度上加劇了大模型評測領(lǐng)域的種種亂象。

舉個例子，在圖像識別里有一個著名的“走捷徑”案例，它指的是在對狼和雪狼進(jìn)行分類時，大模型學(xué)習(xí)到的規(guī)律是識別背景是否存在積雪，而不是識別兩種動物的生理特征區(qū)別。

而在認(rèn)知推理類的數(shù)據(jù)集上也存在著類似現(xiàn)象。面對一道數(shù)學(xué)題，假如要求大模型給出分步推理的“思維鏈”時，大模型往往會混淆不同單位的量，比如將時速和公里數(shù)相乘相加，這說明對于不同概念背后的物理意義，大模型存在認(rèn)識不足的問題。

那么，如何更好地檢測大模型對于概念的認(rèn)知水平、以及檢測它的應(yīng)用泛化能力？

以下圖為例，對于一個復(fù)雜的推理問題來說，假如從起點到終點有多種解答方式，而其中每一步的推理都能被看成是一個節(jié)點，節(jié)點和節(jié)點之間組成了路徑。

而在當(dāng)前的大模型訓(xùn)練范式中，往往只讓大模型看到少數(shù)幾條正確的解題路徑（青色或藍(lán)色），而忽視了錯誤的路徑（橙色）。

同樣地，在評測大模型的表現(xiàn)時，人們只關(guān)注最終的推理路徑終點是否和標(biāo)準(zhǔn)答案一致，而忽視了推理過程中可能存在的錯誤推理節(jié)點或錯誤路徑。

（來源：arXiv）

舉例來說：

在教育領(lǐng)域，如果 GPT4 在小學(xué)級別的數(shù)學(xué)題目上的評測準(zhǔn)確率只有四成，那么我們難免會對 GPT4 的實用性產(chǎn)生懷疑。

在咨詢領(lǐng)域，大模型的應(yīng)用場景高度依賴于對不同方案的推演、整體步驟的拆分、解析等能力。

而當(dāng)今大模型在這些方面的能力缺失，難免讓人對其下游應(yīng)用的可靠性打上了問號。

讓大模型“從學(xué)生變?yōu)槔蠋煛?/span>

基于此，曾忠燊和所在團(tuán)隊開展了本次研究。事實上，本次研究的靈感來源于一次比賽，此前曾忠燊參加了“粵港澳大灣區(qū)（黃埔）國際算法算例大賽”的分賽道“大語言模型綜合能力強(qiáng)化”。

當(dāng)時，他調(diào)研了一些關(guān)于大模型推理方向能力增強(qiáng)的論文，這些論文主要分為以下方向：第一個方向是同源數(shù)據(jù)增廣，第二個方向是使用反饋模型針對數(shù)據(jù)篩選、或針對大模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

在他嘗試使用時，卻發(fā)現(xiàn)這兩個方法均存在很大問題：

第一，當(dāng)使用 ChatGPT 進(jìn)行數(shù)據(jù)增廣時，ChatGPT 并不能真正地理解人們希望其生成的一些概念，在應(yīng)用這些概念造題和解題時常常會出現(xiàn)各種錯誤，因此往往需要非常精細(xì)的程序設(shè)計和引導(dǎo)來提升準(zhǔn)確率。

第二，仔細(xì)研究反饋模型的作用后，曾忠燊認(rèn)為要求一個反饋模型對推理數(shù)據(jù)進(jìn)行篩選時，實質(zhì)上等價于要求其進(jìn)行“元推理”。

這一難度甚至高于直接解題，原因在于為了提升解題效果引入更難的評判解題任務(wù)，似乎會把一個問題轉(zhuǎn)為另一個更難的問題。

意識到這一問題之后，他和所在團(tuán)隊研發(fā)了元推理范式，并將其用于一些常見數(shù)據(jù)集之上。

結(jié)果發(fā)現(xiàn)無論是開源大模型還是閉源大模型，它們的表現(xiàn)都開始出現(xiàn)急劇下降，尤其是開源的垂類推理大模型甚至降到了不足百分之一的準(zhǔn)確率。

因此，他和同事呼吁將大模型認(rèn)知推理的檢測重點，從最終的計算結(jié)果匹配，轉(zhuǎn)移到對于計算過程的檢測。

具體做法是：先從解題空間里采樣一些給定的推理路徑，然后讓大模型進(jìn)行評判。評判的內(nèi)容包括：推理路徑是否正確？錯誤節(jié)點和錯誤步驟在哪里？錯誤原因是什么？

這種評測范式的轉(zhuǎn)變，意味著對于整個解題空間，大模型都必須具備全局和宏觀的理解，做到知其然也要知其所以然。

詳細(xì)來說，大模型需要做到如下幾方面：

其一，需要知道推理的最終結(jié)果和節(jié)點是什么；

其二，需要對每一步推理節(jié)點的條件和前提進(jìn)行審視性評判，并對節(jié)點和節(jié)點間的邏輯連接進(jìn)行思考，以便判斷當(dāng)前步驟是否出錯；

其三，需要能夠代入不同假設(shè)，或反事實地（counterfactually）針對未來的推理路徑進(jìn)行預(yù)演和分析，從而判斷這一答案是否在正確的推理路徑上。

這些需求將迫使大模型從一個答題者的角度，上升到一個教師的高度進(jìn)行全局審視和全局推理。對于這種“對推理過程的推理”，該團(tuán)隊將其稱之為“元推理”評測范式。

（來源：arXiv）

如上圖所示，當(dāng)他們把元推理范式應(yīng)用到一個流行的數(shù)學(xué)評測集 GSM8k 上時，GPT4 的表現(xiàn)驟降一半以上，而 GPT3.5 的準(zhǔn)確率則由 80% 以上驟降到個位數(shù)。

這說明在同一個數(shù)據(jù)集上經(jīng)過簡單的元推理范式轉(zhuǎn)換后，模型能力會出現(xiàn)巨大差別。值得注意的是在范式轉(zhuǎn)換之后，大模型的能力差異出現(xiàn)了更大的分化。

同樣在 GSM8K 上取得領(lǐng)先效果的開源模型比如 Mammoth、WizardMath、MetaMath 等模型，它們的訓(xùn)練方法是這樣的：針對該數(shù)據(jù)集的數(shù)據(jù)進(jìn)行大量的同源增廣，以讓效果接近 GPT3.5。

遺憾的是，當(dāng)課題組對其進(jìn)行范式轉(zhuǎn)換之后，開源的數(shù)學(xué)大模型效果，由原本的接近 GPT3.5、變成遠(yuǎn)遜于 GPT3.5。

這可能也表明當(dāng)前流行的簡單數(shù)據(jù)增強(qiáng)的方法，更接近于“背題”或“題海戰(zhàn)術(shù)”，并不能真正地提升大模型的實際能力。

而作為一種通用評測范式，曾忠燊等人提出的元推理范式，能被推廣到更多評測場景。

此外，本次研究中的標(biāo)注難度遠(yuǎn)遠(yuǎn)超出預(yù)期。研究期間，他們針對小初級別的數(shù)學(xué)數(shù)據(jù)集 GSM8K，進(jìn)行了元推理范式的改造。

這一改造方式要求標(biāo)注人員針對數(shù)據(jù)集進(jìn)行類似的元推理，并將元推理結(jié)果記錄成評測集。

雖然僅僅是小初級別的題目，但他們發(fā)現(xiàn)從讀題、讀標(biāo)準(zhǔn)答案、再到讀采樣出的待評測答案，必須針對每一步進(jìn)行細(xì)致的分析和推理。

而由于耗時較久，單位標(biāo)注價格也就更高；同時因為難度高，對于標(biāo)注人員的資質(zhì)要求也高。

曾忠燊說：“我在看到報價的時候，突然想起 OpenAI 有一個論文是對數(shù)學(xué)奧林匹克競賽的題目和解題過程進(jìn)行標(biāo)注，以進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。OpenAI 標(biāo)注的性質(zhì)和內(nèi)容，和我們存在部分相似的地方。”

在 OpenAI 那份名為 PRM800K 的數(shù)據(jù)集里，包含了 80 萬道標(biāo)注題目。保守估計一道題的標(biāo)注成本是 10 美元，那么 OpenAI 數(shù)據(jù)集的價格是 800 萬美元。而 OpenAI 那篇論文并沒有催生特別直接的落地成果，也沒有帶來實用效果上的巨大提升。

“在真正了解標(biāo)注的昂貴和難處后，不禁感慨 OpenAI 的財大氣粗和對失敗的容忍。”曾忠燊說。

另據(jù)悉，OpenAI 的創(chuàng)始人之一伊利亞·蘇茨凱弗（Ilya Sutskever）在一次采訪時被問到：“如果通用人工智能實現(xiàn)后他會選擇做什么？”伊利亞回答說：“或許我會主動融入 AI（be part of AI）?！?/span>

閱讀到上述采訪報道時，當(dāng)時曾忠燊并未明白什么叫融入 AI。可隨著本次工作的不斷推進(jìn)，他隱約覺得 AI 要在認(rèn)知上和人類貼合，可能很大程度上要依賴于人類不斷提供豐富的反饋信號。

“這或許也是一種融入 AI 的方式吧？一種類似于干將莫邪以身殉劍的神話浪漫感?！痹覠稣f。

而在未來，他和所在團(tuán)隊致力于打造一個更全面、更多元的評測體系。目前，他們已經(jīng)聯(lián)系多家國內(nèi)頭部的標(biāo)注公司，目標(biāo)場景包括學(xué)科類、邏輯類、具身類和應(yīng)用類等四個方向的元推理場景構(gòu)筑。

參考資料：1.https://arxiv.org/abs/2312.17080
排版：羅以

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 大模型

相關(guān)推薦

OpenAI終止對中國提供API服務(wù)，國產(chǎn)大模型發(fā)布應(yīng)對方案

智能計算 openAI API 大模型 | 2024-06-26

浪潮之下的大語言模型以及我國未來大語言模型的發(fā)展

智能計算 202405 大語言模型大模型 | 2024-05-09

邊緣智能：AI商業(yè)化中最值得關(guān)注的一環(huán)

智能計算邊緣智能 AI 大模型 | 2024-05-16

大模型提速自動駕駛算法開發(fā)——2024年IDC中國自動駕駛開發(fā)平臺廠商評估研究報告發(fā)布

汽車電子大模型自動駕駛算法開發(fā) IDC | 2024-06-24

斯坦福AI團(tuán)隊承認(rèn)抄襲清華模型，公開道歉并撤下爭議項目

智能計算 AI 清華大模型 | 2024-06-05

大模型價格戰(zhàn)開打，多芯混合能否成破局之策？

智能計算大模型 | 2024-06-25

英偉達(dá)的挑戰(zhàn)者的來錢之道

智能計算英偉達(dá) 大模型 | 2024-07-23

免費(fèi)！字節(jié)跳動發(fā)布豆包MarsCode智能開發(fā)工具：支持代碼補(bǔ)全、Bug修復(fù)

智能計算字節(jié)跳動大模型 AI編程 | 2024-06-27

AI大模型時代的邊云協(xié)同之EdgeXFoundry

nakey | 2024-04-10

從基礎(chǔ)能力到應(yīng)用，大模型實測結(jié)果揭曉

智能計算大模型實測大模型 | 2024-06-11

OpenAI再次對線谷歌，誰才是贏家？

智能計算 OpenAI 谷歌 Gemini ChatGPT 大模型 | 2024-05-16

焦點

推薦視頻

更多>>

技術(shù)專區(qū)