語言模型參數(shù)越多越好?DeepMind用700億打敗自家2800億,訓(xùn)練優(yōu)化出「小」模型
給定固定的 FLOPs 預(yù)算,應(yīng)該如何權(quán)衡模型大小和訓(xùn)練 token 的數(shù)量?DeepMind 得出了與先前不同的結(jié)論。
最近一系列大型語言模型 (LLM) 正在崛起,其中最大的語言模型已經(jīng)擁有超過 5000 億個參數(shù)。這些大型自回歸 transformer 通過使用各種評估協(xié)議(例如零樣本、少樣本和微調(diào)),在許多任務(wù)中表現(xiàn)出令人印象深刻的性能。
然而訓(xùn)練大型語言模型需要消耗巨大的計算和能源,并且這種消耗隨著模型的增加而增加。在實(shí)踐中,研究者事先分配的訓(xùn)練計算預(yù)算通常是預(yù)先知道的:有多少加速器可用以及我們想要使用它們多長時間。通常這些大模型只訓(xùn)練一次是可接受的,因此準(zhǔn)確估計給定計算預(yù)算的最佳模型超參數(shù)至關(guān)重要。
Kaplan 等人研究 (2020) 表明,自回歸語言模型 (LM) 中的參數(shù)數(shù)量與其性能之間存在冪律關(guān)系。結(jié)果是該領(lǐng)域一直在訓(xùn)練越來越大的模型,期望性能得到改善。Kaplan 等人(2020) 得出的一個值得注意的結(jié)論是,不應(yīng)該將大型模型訓(xùn)練到其可能的最低損失,以獲得計算的最佳化。
來自 DeepMind 的研究者得出了相同的結(jié)論,但他們估計大型模型可以訓(xùn)練的 token 數(shù)應(yīng)該比作者推薦的更多。具體來說,假設(shè)計算預(yù)算增加 10 倍,其他研究者建議模型的大小應(yīng)該增加 5.5 倍,而訓(xùn)練 token 的數(shù)量應(yīng)該只增加 1.8 倍。相反,DeepMind 發(fā)現(xiàn)模型大小和訓(xùn)練 token 的數(shù)量應(yīng)該以相等的比例擴(kuò)展。
論文地址:https://arxiv.org/pdf/2203.15556.pdf
繼 Kaplan 等人和 GPT-3 的訓(xùn)練設(shè)置研究之后,近期大型模型的訓(xùn)練 token 大約為 3000 億個(表 1),這與增加算力時,主要采用增加模型大小結(jié)論一致。
在這項(xiàng)工作中,DeepMind 重新審視了這個問題:給定固定的 FLOPs 預(yù)算,應(yīng)該如何權(quán)衡模型大小和訓(xùn)練 token 的數(shù)量?為了回答這個問題,DeepMind 將最終的預(yù)訓(xùn)練損失
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。