色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > 無需強(qiáng)化學(xué)習(xí)的與人類偏好對齊的語言模型：Wombat袋熊

無需強(qiáng)化學(xué)習(xí)的與人類偏好對齊的語言模型：Wombat袋熊

發(fā)布人：數(shù)據(jù)派THU 時間：2023-04-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

OpenAI 的 ChatGPT 理解多種多樣的的人類指令，并且可以很好的應(yīng)對不同的語言任務(wù)需求。自發(fā)布以來就掀起了對于通用人工智能的討論。ChatGPT 令人驚嘆的能力來源于一種新穎的大規(guī)模語言模型微調(diào)方法：RLHF（通過強(qiáng)化學(xué)習(xí)對齊人類反饋）。

RLHF 方法不同于以往傳統(tǒng)的監(jiān)督學(xué)習(xí)的微調(diào)方式，該方法首先讓模型根據(jù)指令提示生成不同的回復(fù)，之后通過人工的評價反饋，使用強(qiáng)化學(xué)習(xí)的方式對 LLM 進(jìn)行微調(diào)。RLHF 解鎖了語言模型跟從人類指令的能力，并且使得語言模型的能力和人類的需求和價值觀對齊，從而使得 RLHF 微調(diào)下的語言模型具有令人驚嘆的能力。
當(dāng)前研究 RLHF 的工作主要使用 PPO 算法對語言模型進(jìn)行優(yōu)化。從一個使用指令和人類示范的數(shù)據(jù)通過監(jiān)督學(xué)習(xí)微調(diào)的語言模型開始，PPO 算法首先使用這個語言模型輸出對于不同指令數(shù)據(jù)的回復(fù)，之后通過一個獎勵模型對語言模型的不同回復(fù)進(jìn)行打分評價，最后使用打分評價通過策略梯度下降的方式對語言模型進(jìn)行優(yōu)化。
考慮到語言模型在訓(xùn)練中不斷變化和獎勵模型有限的泛化能力，PPO 在工程實踐中需要反復(fù)迭代上述流程，并且在獎勵的設(shè)計上需要限制微調(diào)的語言模型不能偏離初始模型太遠(yuǎn)。由于使用強(qiáng)化學(xué)習(xí)訓(xùn)練包含有眾多的超參數(shù)，并且在算法迭代的過程中需要多個獨立模型的相互配合，錯誤的實現(xiàn)細(xì)節(jié)都會導(dǎo)致不盡如人意的訓(xùn)練結(jié)果。
在和人類對齊的角度上，強(qiáng)化學(xué)習(xí)算法是不是必須的呢？該篇論文提出了基于排序的人類偏好對齊方法。它對不同語言模型生成的回復(fù)（回復(fù)可以來自 ChatGPT、GPT-4、當(dāng)前的訓(xùn)練模型或者人類標(biāo)注數(shù)據(jù)）進(jìn)行評分，評分來自于回復(fù)在當(dāng)前模型下的對數(shù)概率。RRHF 通過通過排名損失使評分與人類的偏好（或者代理的獎勵模型）對齊。RRHF 訓(xùn)練好的模型可以同時作為生成語言模型和獎勵模型使用。下圖中對比了 PPO 算法和 RRHF 算法的區(qū)別。

RRHF 算法可以有效地將語言模型輸出概率與人類偏好對齊，并且在微調(diào)期間只需要 1 到 2 個模型。相比之下，PPO 需要 4 個模型：微調(diào)的語言模型，參考語言模型，獎勵模型和價值模型相互配合。在實際的訓(xùn)練中，更少的模型數(shù)量可以幫助減少顯存的占用，使得 RRHF 可以更高效地利用計算資源，并擴(kuò)展到更大規(guī)模的模型上進(jìn)行訓(xùn)練。
此外，RRHF 在編碼和超參數(shù)方面比 PPO 更簡單。整個對齊過程（包括監(jiān)督學(xué)習(xí)、訓(xùn)練獎勵模型、進(jìn)行 PPO）可以在一次 RRHF 訓(xùn)練中完成。文章在 Anthropic 發(fā)布的 Helpful and Harmless 數(shù)據(jù)上使用 Meta 的 LLaMA 和斯坦福的 Alpaca 模型進(jìn)行實驗，發(fā)現(xiàn) RRHF 可以達(dá)到和 PPO 相當(dāng)?shù)乃健Ｔ诖a實踐上，RRHF 和傳統(tǒng)的監(jiān)督學(xué)習(xí)微調(diào)算法的難易程度相當(dāng)，極大地減小了語言模型和人類偏好對齊的工程難度。
同時，文章作者基于 RRHF 算法，使用 Alpaca 的提示數(shù)據(jù)并利用 ChatGPT 或者 GPT-4 作為得分模型，訓(xùn)練了語言模型 Wombat-7B 和 Wombat-7B-GPT4。訓(xùn)練時間只需要幾個小時。訓(xùn)練得到的袋熊 Wombat? 可以更好的與人類偏好對齊。以下是來自袋熊 Wombat? 的一個自我介紹。
Query: Give an introduction of wombat
Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.

論文鏈接：
https://arxiv.org/abs/2304.05302作者單位：
阿里巴巴達(dá)摩院代碼鏈接：https://github.com/GanjinZero/RRHF

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計算 AI | 2024-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機(jī)器視覺 | 2024-07-31

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

焦點

推薦視頻

更多>>

技術(shù)專區(qū)