色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<optgroup id="kn982"><strike id="kn982"><tr id="kn982"></tr></strike></optgroup>

<input id="kn982"><em id="kn982"></em></input>

"); //-->

博客專欄

EEPW首頁 > 博客 > 谷歌發(fā)布 RLDS，在強化學習生成、共享和使用數(shù)據(jù)集

谷歌發(fā)布 RLDS，在強化學習生成、共享和使用數(shù)據(jù)集

發(fā)布人：AI科技大本營時間：2022-01-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

編譯 | 禾木木

出品 | AI科技大本營（ID:rgznai100）

大多數(shù)強化學習和序列決策算法都需要智能體與環(huán)境的大量交互生成訓練數(shù)據(jù)，以獲得最佳性能。這種方法效率很低，尤其是在很難做到這種交互的情況下，比如用真實的機器人來收集數(shù)據(jù)，或者和人類專家進行交互。要緩解這個問題，可以重用外部的知識源，比如 RL Unplugged Atari 數(shù)據(jù)集，其中包括玩 Atari 游戲的合成智能體的數(shù)據(jù)。

然而，這些數(shù)據(jù)集非常少，而且序列決策生成數(shù)據(jù)的任務(wù)和方式多種多樣（例如，專家數(shù)據(jù)或噪聲演示，人類或合成交互，等等），因此，整個社區(qū)要用一組很少的、具有代表性的數(shù)據(jù)集進行工作，就不太現(xiàn)實，甚至不可取。另外，有些數(shù)據(jù)集被發(fā)行成僅適合特定算法的形式，因此研究者不能重用這些數(shù)據(jù)集。比如，某些數(shù)據(jù)集并沒有包含與環(huán)境的交互序列，但卻提供了一組讓我們無法重構(gòu)其時間關(guān)系的隨機交互，其他數(shù)據(jù)集則會以稍有差異的方式發(fā)行，從而導致細微的誤差，非常難以識別。

基于此，研究人員提出了強化學習數(shù)據(jù)集（RLDS），并發(fā)布了一套用于記錄、重放、操作、注釋和共享數(shù)據(jù)的工具，用于序列決策制定，其中包括離線強化學習、學徒學習或模仿學習。RLDS 可以方便地共享數(shù)據(jù)集，而不會損失任何信息（比如，保持交互的序列，而非隨機化），而且獨立于底層原始格式，從而允許用戶在更廣泛的任務(wù)上對新的算法進行快速測試。另外，RLDS 提供了收集由合成智能體（EnvLogger）或人類（RLDS Creator）生成的數(shù)據(jù)的工具，以及對收集到的數(shù)據(jù)進行檢查與處理的工具。最后，通過與 TensorFlow Dataset（TFDS）集成，有助于加強與研究界共享強化學習數(shù)據(jù)集。

RL、離線 RL 或模仿學習中的數(shù)據(jù)集結(jié)構(gòu)

強化學習、離線強化學習或模仿學習中的算法，都有可能會使用格式完全不同的數(shù)據(jù)，并且，當數(shù)據(jù)集的格式不清楚時，很容易導致由于對底層數(shù)據(jù)的誤解引起的錯誤。RLDS 通過定義數(shù)據(jù)集的每個字段的內(nèi)容和意義，使數(shù)據(jù)格式顯式化，并為其提供了重新對齊和轉(zhuǎn)換的工具，以適應(yīng)任何算法實現(xiàn)所需的格式。為了定義數(shù)據(jù)格式，RLDS 利用了強化學習數(shù)據(jù)集固有的標準結(jié)構(gòu)，也就是智能體和環(huán)境之間的交互（步驟）的序列（情節(jié)），其中，智能體可以是基于規(guī)則的/自動化控制器、正式規(guī)劃者、人類、動物，或上述的組合。

這些步驟中的每一個都包含當前的觀察、應(yīng)用于當前觀察的行動、作為應(yīng)用行動的結(jié)果而獲得的獎勵以及與獎勵一起獲得的折扣。步驟還包括額外的信息，以表明該步驟是該情節(jié)的第一個還是最后一個，或者該觀察是否對應(yīng)于一個終端狀態(tài)。每個步驟和情節(jié)還可以包含自定義的元數(shù)據(jù)，可用于存儲與環(huán)境相關(guān)或與模型相關(guān)的數(shù)據(jù)。

生成數(shù)據(jù)

研究人員通過記錄任何類型的智能體與環(huán)境的交互來產(chǎn)生數(shù)據(jù)集。為了保持其有用性，原始數(shù)據(jù)最好以無損格式存儲，記錄所有生成的信息，并保留數(shù)據(jù)項之間的時間關(guān)系（例如，步驟和事件的序列），而不會對將來如何利用數(shù)據(jù)集作出任何假定。為了這個目的，發(fā)行了 EnvLogger，這是一個軟件庫，以開放文檔格式記錄智能體與環(huán)境的交互。

EnvLogger 是一種環(huán)境包裝器，可以將智能體與環(huán)境的交互記錄下來，并將它們存儲在一個較長的時間內(nèi)。雖然 EnvLogger 無縫地集成在 RLDS 生態(tài)系統(tǒng)中，但是將其設(shè)計為可作為一個獨立的庫使用，以提高模塊化程度。

與大多數(shù)機器學習環(huán)境一樣，為強化學習收集人類數(shù)據(jù)是一個既費時又費力的過程。解決這個問題的常見方法是使用眾包，它要求用戶能夠輕松地訪問可能難以擴展到大量參與者的環(huán)境。在 RLDS 生態(tài)系統(tǒng)中，發(fā)行了一個基于 Web 的工具，名為 RLDS Creator，該工具可以通過瀏覽器為任何人類可控制的環(huán)境提供一個通用接口。用戶可以與環(huán)境進行交互，例如，在網(wǎng)上玩 Atari 游戲，交互會被記錄和存儲，以便以后可以通過 RLDS 加載回來，用于分析或訓練智能體。

共享數(shù)據(jù)

數(shù)據(jù)集通常很繁重，與更廣泛的研究社區(qū)共享，不僅可以重現(xiàn)之前的實驗，還可以加快研究速度，因為它更容易在一系列場景中運行和驗證新算法。為此，RLDS 與 TensorFlow Datasets（TFDS）集成，后者是一個現(xiàn)有的機器學習社區(qū)內(nèi)共享數(shù)據(jù)集的庫。一旦數(shù)據(jù)集成為 TFDS 的一部分，它就會被索引到全球 TFDS 目錄中，這樣，所有研究人員都可以通過使用 tfds.load(name_of_dataset) 來訪問，并且可以將數(shù)據(jù)以 TensorFlow 或 Numpy 格式加載。

TFDS 獨立于原始數(shù)據(jù)集的底層格式，所以，任何具有 RLDS 兼容格式的現(xiàn)有數(shù)據(jù)集都可以用于 RLDS，即使它最初不是用 EnvLogger 或 RLDS Creator 生成的。此外，使用 TFDS，用戶可以保留對自己的數(shù)據(jù)擁有所有權(quán)和完全控制權(quán)，并且所有的數(shù)據(jù)集都包含了一個引用給數(shù)據(jù)集作者。

使用數(shù)據(jù)

研究人員可以使用這些數(shù)據(jù)集對各種機器學習算法進行分析、可視化或訓練，就像上面提到的那樣，這些算法可能會以不同的格式使用數(shù)據(jù)，而不是以不同的格式存儲數(shù)據(jù)。例如，一些算法，如 R2D2 或 R2D3，使用完整的情節(jié)；而另一些算法，如 Behavioral Cloning（行為克隆）或 ValueDice，則使用成批的隨機步驟。為了實現(xiàn)這一點，RLDS 提供了一個強化學習場景的轉(zhuǎn)換庫。由于強化學習數(shù)據(jù)集的嵌套結(jié)構(gòu)，所以這些轉(zhuǎn)換都經(jīng)過了優(yōu)化，包括了自動批處理，從而加速了其中一些操作。使用這些優(yōu)化的轉(zhuǎn)換，RLDS 用戶有充分的靈活性，可以輕松實現(xiàn)一些高級功能，而且開發(fā)的管道可以在 RLDS 數(shù)據(jù)集上重復使用。轉(zhuǎn)換的示例包含了對選定的步驟字段（或子字段）的全數(shù)據(jù)集的統(tǒng)計，或關(guān)于情節(jié)邊界的靈活批處理。你可以在這個教程中探索現(xiàn)有的轉(zhuǎn)換，并在這個 Colab 中看到更復雜的真實示例。

可用數(shù)據(jù)集

目前，TFDS 中有以下數(shù)據(jù)集（與 RLDS 兼容）：

帶有 Mujoco 和 Adroit 任務(wù)的 D4RL 的子集

RLUnplugged DMLab、Atari 和 Real World RL 數(shù)據(jù)集

用 RLDS 工具生成的三個 Robosuite 數(shù)據(jù)集

結(jié)語

RLDS 生態(tài)系統(tǒng)不僅可以提高強化學習與序列決策問題研究的可重現(xiàn)性，還可以方便地進行數(shù)據(jù)的共享和重用。研究人員期望 RLDS 所提供的特性能夠推動發(fā)行結(jié)構(gòu)化的強化學習數(shù)據(jù)集，保存所有的信息，并涵蓋更廣泛的智能體和任務(wù)。

參考鏈接：

https://ai.googleblog.com/2021/12/rlds-ecosystem-to-generate-share-and.html

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

AI+機器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

萬家樂JSYZ5-AI燃氣熱水器電路圖

設(shè)計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

焦點

推薦視頻

更多>>

技術(shù)專區(qū)