色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 語言模型參數(shù)越多越好?DeepMind用700億打敗自家2800億,訓(xùn)練優(yōu)化出「小」模型

          語言模型參數(shù)越多越好?DeepMind用700億打敗自家2800億,訓(xùn)練優(yōu)化出「小」模型

          發(fā)布人:機(jī)器之心 時間:2022-04-09 來源:工程師 發(fā)布文章
          給定固定的 FLOPs 預(yù)算,應(yīng)該如何權(quán)衡模型大小和訓(xùn)練 token 的數(shù)量?DeepMind 得出了與先前不同的結(jié)論。


          最近一系列大型語言模型 (LLM) 正在崛起,其中最大的語言模型已經(jīng)擁有超過 5000 億個參數(shù)。這些大型自回歸 transformer 通過使用各種評估協(xié)議(例如零樣本、少樣本和微調(diào)),在許多任務(wù)中表現(xiàn)出令人印象深刻的性能。
          然而訓(xùn)練大型語言模型需要消耗巨大的計算和能源,并且這種消耗隨著模型的增加而增加。在實(shí)踐中,研究者事先分配的訓(xùn)練計算預(yù)算通常是預(yù)先知道的:有多少加速器可用以及我們想要使用它們多長時間。通常這些大模型只訓(xùn)練一次是可接受的,因此準(zhǔn)確估計給定計算預(yù)算的最佳模型超參數(shù)至關(guān)重要。
          Kaplan 等人研究 (2020) 表明,自回歸語言模型 (LM) 中的參數(shù)數(shù)量與其性能之間存在冪律關(guān)系。結(jié)果是該領(lǐng)域一直在訓(xùn)練越來越大的模型,期望性能得到改善。Kaplan 等人(2020) 得出的一個值得注意的結(jié)論是,不應(yīng)該將大型模型訓(xùn)練到其可能的最低損失,以獲得計算的最佳化。
          來自 DeepMind 的研究者得出了相同的結(jié)論,但他們估計大型模型可以訓(xùn)練的 token 數(shù)應(yīng)該比作者推薦的更多。具體來說,假設(shè)計算預(yù)算增加 10 倍,其他研究者建議模型的大小應(yīng)該增加 5.5 倍,而訓(xùn)練 token 的數(shù)量應(yīng)該只增加 1.8 倍。相反,DeepMind 發(fā)現(xiàn)模型大小和訓(xùn)練 token 的數(shù)量應(yīng)該以相等的比例擴(kuò)展。
          圖片
          論文地址:https://arxiv.org/pdf/2203.15556.pdf
          繼 Kaplan 等人和 GPT-3 的訓(xùn)練設(shè)置研究之后,近期大型模型的訓(xùn)練 token 大約為 3000 億個(表 1),這與增加算力時,主要采用增加模型大小結(jié)論一致。
          圖片
          在這項(xiàng)工作中,DeepMind 重新審視了這個問題:給定固定的 FLOPs 預(yù)算,應(yīng)該如何權(quán)衡模型大小和訓(xùn)練 token 的數(shù)量?為了回答這個問題,DeepMind 將最終的預(yù)訓(xùn)練損失

          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉