色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > 教科書級數(shù)據(jù)is all you need：1.3B小模型逆襲大模型的秘密（1）

教科書級數(shù)據(jù)is all you need：1.3B小模型逆襲大模型的秘密（1）

發(fā)布人：機器之心時間：2023-06-23 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

吳恩達說的「小數(shù)據(jù)」有多大威力？這個只有 1.3B 參數(shù)量的模型給出了證明。

人工智能的三個核心要素是算力、算法和數(shù)據(jù)，這是大多數(shù)人在初識人工智能時都會接觸到的一個觀點。不過，在深入闡述該觀點時，很多材料都傾向于解釋數(shù)據(jù)「大」的一面，畢竟當前的大模型一直在由不斷增加的「大數(shù)據(jù)」來推動，而且這條路似乎還沒有走到極限。
不過，隨著數(shù)據(jù)獲取難度增加以及算力增長出現(xiàn)瓶頸，單純追求「大模型、大數(shù)據(jù)」的道路變得愈發(fā)難以為繼。因此，早在 2022 年，吳恩達就在采訪中呼吁大家關注「小數(shù)據(jù)」，即數(shù)據(jù)量較小但質量較高的數(shù)據(jù)。「在數(shù)據(jù)行業(yè)，我認為重點必須從大數(shù)據(jù)轉向優(yōu)質數(shù)據(jù)。擁有 50 個精心設計的示例就足以向神經(jīng)網(wǎng)絡解釋用戶希望它學習什么?！箙嵌鬟_表示。
高質量的「小數(shù)據(jù)」到底有多大威力？最近，來自微軟的一篇題為「Textbooks Are All You Need」的論文給出了一個非常直觀的答案。

論文鏈接：https://arxiv.org/pdf/2306.11644.pdf
他們用規(guī)模僅為 7B token 的「教科書質量」數(shù)據(jù)訓練了一個 1.3B（13 億參數(shù)）的模型 ——phi-1。phi-1 專注于編碼任務，具體來說是編寫 Python 函數(shù)和對應的文檔字符串。訓練數(shù)據(jù)由網(wǎng)上篩選的教科書質量數(shù)據(jù)（6B token）和 GPT-3.5 生成的教科書及練習數(shù)據(jù)（1B token）組成。訓練時，模型對 70 億的 token 進行了 8 次遍歷。然后在不到 2 億 token 的數(shù)據(jù)上進行了微調。整個訓練過程在 8 個 A100 上進行，為期 4 天。
結果表明，盡管在數(shù)據(jù)集和模型大小方面比競品模型小幾個數(shù)量級，phi-1 依然在 HumanEval 的 pass@1 上達到了 50.6% 的準確率，在 MBPP 上達到了 55.5%，這是僅使用一個 LLM 生成的最佳自我報告數(shù)字之一。

論文作者之一 Sebastien Bubeck 表示，任何在 HumanEval 上達到 50% 以上準確率的模型都要比 phi-1 大得多，比如前段時間超越所有開源模型、擊敗 Claude 和 Bard、專門用于編程任務的大模型 WizardCoder 參數(shù)量達到了 phi-1 的 10 倍以上，而所用的數(shù)據(jù)集規(guī)模則高達百倍。

此外，研究者還提出了一個更小的模型：參數(shù)量為 350M 的 phi-1-small。該模型用與 phi-1 相同的 pipeline 進行訓練，在 HumanEval 上達到了 45% 的準確率。
從 phi-1 這項研究可以看到，高質量數(shù)據(jù)的引入改變了模型性能與規(guī)模之間的關系，突破了之前的 scaling laws。它表明，高質量數(shù)據(jù)可以提升大型語言模型（LLM）的 SOTA，同時大大降低數(shù)據(jù)集的規(guī)模和計算量，這對于當前算力緊張的局面來說是個好消息。
在論文第二部分，作者詳述了他們的訓練過程，并討論了他們的數(shù)據(jù)選擇過程對于取得這個結果的重要性。此外，盡管 phi-1 的訓練 token 遠少于現(xiàn)有模型，但它仍然顯示出了涌現(xiàn)特性。在第三部分，作者討論了這些涌現(xiàn)特性，通過比較 phi-1 和 phi-1-small 的輸出，確認了參數(shù)數(shù)量在「涌現(xiàn)」方面起關鍵作用的假設。這一部分用到的方法與 Sparks of AGI 論文的精神相呼應，該論文主張擺脫靜態(tài)基準，來測試 LLM 的性能。最后，在第四部分，作者討論了評估模型的替代基準，而在第五部分，他們研究了他們的訓練數(shù)據(jù)在 HumanEval 方面可能受到的「污染」。
這篇論文引起了不少研究者的關注，認為它代表了一種研究趨勢。最近回歸 OpenAI 的 Andrej Karpathy 展望說，「我們可能會看到更多創(chuàng)造性的『縮小規(guī)?！还ぷ鳎?/span>將數(shù)據(jù)質量和多樣性置于數(shù)量之上，更多的合成數(shù)據(jù)生成以及小型但功能強大的專家模型將會出現(xiàn)。」

愛丁堡大學博士生符堯也給予了該文高度評價，認為其通過將數(shù)據(jù)工程推向極限，充分利用了基礎模型（不僅僅是 GPT-3.5）的潛力，同時指出該研究可能過于偏向于 HumanEval 風格的測試，因此未來的研究方向可能需要平衡模型的能力。

他的詳細評價如下：

1、Prompt engineering
這可能是最重要 / 棘手的部分，因為作者大量使用 promp 來引導 GPT-3.5 生成預訓練的教科書和 SFT 代碼練習。顯然，大部分性能提升來自這個階段。我進一步的假設是：

如果將這些數(shù)據(jù)用于繼續(xù)訓練 GPT-3.5 本身，即教師模型，它也會有進一步改進的性能，就像之前的 LMSI（Large Language Models Can Self-Improve）論文展示的一樣，因此我傾向于將 Phi-1 論文視為推動 LMSI 方法的一大步。
將教師模型更改為在足夠多代碼上進行預訓練的任何預訓練模型，也可以獲得類似質量的數(shù)據(jù)，當然，這需要一個良好的基礎模型。
綜合上述觀點，基本上對于任何優(yōu)秀的基礎模型，都可以從基礎模型中通過 prompt 合成教科書數(shù)據(jù)，然后使用模型生成的數(shù)據(jù)來改進自身，或者蒸餾為更小的專門化變體。

2、能力平衡
從論文的印象來看，我覺得預訓練和 SFT 數(shù)據(jù)可能與 HumanEval 過于接近（并且作者證明沒有污染）?；旧?，作者構建了一個用于 Human Eval 的訓練集。這有多重含義：

為感興趣的測試問題構建訓練集沒有問題，我猜測大多數(shù)部署的模型都這樣做。然而，它降低了在分布內泛化的挑戰(zhàn)程度，盡管對于與推理相關的任務和小型模型來說，這仍然是個挑戰(zhàn)。
然而，LLM 最重要的能力在于分布外泛化，因為更大的模型會泛化到遠離其訓練 / 微調分布的內容。Phi-1 在小模型的分布內泛化方面做得最好（可能是極限），但在 LLM 時代，我們對分布外、少樣本泛化更感興趣。

推動分布內泛化的極限，會以顯著降低通用領域能力為代價，如作者所討論的（也可以參見我們以前的工作：https://arxiv.org/abs/2301.12726）。因此，下一步工作可能落腳于如何進行好的數(shù)據(jù)混合，以保持編碼性能的同時，也能提高通用能力。

總體而言，這是一項令人印象深刻的工作！我學到了很多！

以下是論文細節(jié)。
高質量數(shù)據(jù)來源及其重要性
phi-1 的訓練依賴于三個主要的數(shù)據(jù)集：

一個經(jīng)過篩選的代碼 - 語言數(shù)據(jù)集，它是 The Stack 和 StackOverflow 的一個子集，通過使用基于語言模型的分類器獲得（包含約 6B token）。
一個合成的教科書數(shù)據(jù)集，包含不到 1B 個 token 的 GPT-3.5 生成的 Python 教科書。
一個小型的合成練習數(shù)據(jù)集，包含大約 180M 個 token 的 Python 習題和答案。

以上數(shù)據(jù)組成了總 token 量不到 7B 的訓練數(shù)據(jù)集。作者將經(jīng)過篩選的代碼 - 語言數(shù)據(jù)集和合成的教科書數(shù)據(jù)集的組合稱為「CodeTextbook」，并在預訓練階段使用它來獲得一個基礎模型 phi-1-base—— 該模型已經(jīng)在 HumanEval 上達到了 29% 的準確率。然后，他們使用 180M 個 token 的合成練習數(shù)據(jù)集，稱為「CodeExercises」，對 phi-1-base 模型進行微調，以獲得 phi-1 模型。盡管「CodeExercises」數(shù)據(jù)集規(guī)模較小，但通過這個數(shù)據(jù)集進行微調不僅在生成簡單的 Python 函數(shù)方面帶來了巨大的改進（如圖 2.1 所示），而且更廣泛地解鎖了 phi-1 模型中許多有趣的新能力，這些能力在 phi-1-base 模型中沒有觀察到。
模型架構細節(jié)
該研究使用僅含****（decoder-only）的 transformer 模型 —— 使用多頭注意力 (MHA) 的 FlashAttention 實現(xiàn)，并參考一些新模型，包括 CodeGen、PaLM 和 GPT-NeoX，在并行配置中使用 MHA 和 MLP 層。
具體來說，1.3B 參數(shù)的 phi-1 模型由 24 層組成，隱藏維度為 2048，MLP 內部維度為 8192，使用 32 個注意力頭，每個注意力頭維度為 64。350M 參數(shù)的 phi1-small 模型由 20 層組成，隱藏維度為 1024，MLP 內部維度為 4096，16 個注意力頭，每個維度為 64。
值得注意的是，該研究沒有使用 Fill-In-the-Middle (FIM)、 Multi-Query-Attention (MQA) 等可以進一步提高模型性能和效率的新方法。

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

加大調整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術 | 2023-04-25

釋說芯語16：硬科技：構建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

AI驅動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

焦點

推薦視頻

更多>>

技術專區(qū)

關閉