無需強(qiáng)化學(xué)習(xí)的與人類偏好對齊的語言模型:Wombat袋熊
RLHF 方法不同于以往傳統(tǒng)的監(jiān)督學(xué)習(xí)的微調(diào)方式,該方法首先讓模型根據(jù)指令提示生成不同的回復(fù),之后通過人工的評價反饋,使用強(qiáng)化學(xué)習(xí)的方式對 LLM 進(jìn)行微調(diào)。RLHF 解鎖了語言模型跟從人類指令的能力,并且使得語言模型的能力和人類的需求和價值觀對齊,從而使得 RLHF 微調(diào)下的語言模型具有令人驚嘆的能力。
當(dāng)前研究 RLHF 的工作主要使用 PPO 算法對語言模型進(jìn)行優(yōu)化。從一個使用指令和人類示范的數(shù)據(jù)通過監(jiān)督學(xué)習(xí)微調(diào)的語言模型開始,PPO 算法首先使用這個語言模型輸出對于不同指令數(shù)據(jù)的回復(fù),之后通過一個獎勵模型對語言模型的不同回復(fù)進(jìn)行打分評價,最后使用打分評價通過策略梯度下降的方式對語言模型進(jìn)行優(yōu)化。
考慮到語言模型在訓(xùn)練中不斷變化和獎勵模型有限的泛化能力,PPO 在工程實踐中需要反復(fù)迭代上述流程,并且在獎勵的設(shè)計上需要限制微調(diào)的語言模型不能偏離初始模型太遠(yuǎn)。由于使用強(qiáng)化學(xué)習(xí)訓(xùn)練包含有眾多的超參數(shù),并且在算法迭代的過程中需要多個獨立模型的相互配合,錯誤的實現(xiàn)細(xì)節(jié)都會導(dǎo)致不盡如人意的訓(xùn)練結(jié)果。
在和人類對齊的角度上,強(qiáng)化學(xué)習(xí)算法是不是必須的呢?該篇論文提出了基于排序的人類偏好對齊方法。它對不同語言模型生成的回復(fù)(回復(fù)可以來自 ChatGPT、GPT-4、當(dāng)前的訓(xùn)練模型或者人類標(biāo)注數(shù)據(jù))進(jìn)行評分,評分來自于回復(fù)在當(dāng)前模型下的對數(shù)概率。RRHF 通過通過排名損失使評分與人類的偏好(或者代理的獎勵模型)對齊。RRHF 訓(xùn)練好的模型可以同時作為生成語言模型和獎勵模型使用。下圖中對比了 PPO 算法和 RRHF 算法的區(qū)別。
RRHF 算法可以有效地將語言模型輸出概率與人類偏好對齊,并且在微調(diào)期間只需要 1 到 2 個模型。相比之下,PPO 需要 4 個模型:微調(diào)的語言模型,參考語言模型,獎勵模型和價值模型相互配合。在實際的訓(xùn)練中,更少的模型數(shù)量可以幫助減少顯存的占用,使得 RRHF 可以更高效地利用計算資源,并擴(kuò)展到更大規(guī)模的模型上進(jìn)行訓(xùn)練。
此外,RRHF 在編碼和超參數(shù)方面比 PPO 更簡單。整個對齊過程(包括監(jiān)督學(xué)習(xí)、訓(xùn)練獎勵模型、進(jìn)行 PPO)可以在一次 RRHF 訓(xùn)練中完成。文章在 Anthropic 發(fā)布的 Helpful and Harmless 數(shù)據(jù)上使用 Meta 的 LLaMA 和斯坦福的 Alpaca 模型進(jìn)行實驗,發(fā)現(xiàn) RRHF 可以達(dá)到和 PPO 相當(dāng)?shù)乃健T诖a實踐上,RRHF 和傳統(tǒng)的監(jiān)督學(xué)習(xí)微調(diào)算法的難易程度相當(dāng),極大地減小了語言模型和人類偏好對齊的工程難度。
同時,文章作者基于 RRHF 算法,使用 Alpaca 的提示數(shù)據(jù)并利用 ChatGPT 或者 GPT-4 作為得分模型,訓(xùn)練了語言模型 Wombat-7B 和 Wombat-7B-GPT4。訓(xùn)練時間只需要幾個小時。訓(xùn)練得到的袋熊 Wombat? 可以更好的與人類偏好對齊。以下是來自袋熊 Wombat? 的一個自我介紹。
Query: Give an introduction of wombat
Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.
論文鏈接:
https://arxiv.org/abs/2304.05302作者單位:
阿里巴巴達(dá)摩院代碼鏈接:https://github.com/GanjinZero/RRHF
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。