色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<strike id="66116"></strike>

<input id="66116"></input>

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > 大模型加持的機(jī)器人有多強(qiáng)，MIT CSAIL&IAIFI用自然語(yǔ)言指導(dǎo)機(jī)器人抓取物體

大模型加持的機(jī)器人有多強(qiáng)，MIT CSAIL&IAIFI用自然語(yǔ)言指導(dǎo)機(jī)器人抓取物體

發(fā)布人：機(jī)器之心時(shí)間：2023-08-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

來(lái)自 MIT CSAIL 和 IAIFI 的研究者將準(zhǔn)確的 3D 幾何圖形與來(lái)自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來(lái)，讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn)，完成語(yǔ)言指導(dǎo)的操作。

最近，具身智能成為人工智能領(lǐng)域關(guān)注的一個(gè)焦點(diǎn)。從斯坦福大學(xué)的 VIMA 機(jī)器人智能體，到谷歌 DeepMind 推出首個(gè)控制機(jī)器人的視覺(jué) - 語(yǔ)言 - 動(dòng)作（VLA）的模型 RT-2，大模型加持的機(jī)器人研究備受關(guān)注。

當(dāng)前，自監(jiān)督和語(yǔ)言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識(shí)，這對(duì)于泛化來(lái)說(shuō)非常重要，但圖像特征是二維的。我們知道，機(jī)器人任務(wù)通常需要對(duì)現(xiàn)實(shí)世界中三維物體的幾何形狀有所了解。

基于此，來(lái)自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(chǎng)（Distilled Feature Field，DFF），將準(zhǔn)確的 3D 幾何圖形與來(lái)自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來(lái)，讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn)，完成語(yǔ)言指導(dǎo)的操作。

論文地址：https://arxiv.org/abs/2308.07931

具體來(lái)說(shuō)，該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法，并利用強(qiáng)大的空間和語(yǔ)義先驗(yàn)泛化到未見(jiàn)過(guò)物體上。使用從視覺(jué) - 語(yǔ)言模型 CLIP 中提取的特征，該研究提出了一種通過(guò)開(kāi)放性的自然語(yǔ)言指令對(duì)新物體進(jìn)行操作，并展示了這種方法泛化到未見(jiàn)過(guò)的表達(dá)和新型物體的能力。

方法介紹

該研究分析了少樣本和語(yǔ)言指導(dǎo)的操作，其中需要在沒(méi)見(jiàn)過(guò)類(lèi)似物體的情況下，給定抓取演示或文本描述，機(jī)器人就能拾取新物體。為了實(shí)現(xiàn)這一目標(biāo)，該研究圍繞預(yù)訓(xùn)練圖像嵌入構(gòu)建了系統(tǒng)，這也是從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集中學(xué)習(xí)常識(shí)先驗(yàn)的可靠方法。

下圖 1 描述了該研究設(shè)計(jì)的系統(tǒng)：機(jī)器人首先使用安裝在自拍桿上的 RGB 相機(jī)拍攝一系列照片來(lái)掃描桌面場(chǎng)景，這些照片用于構(gòu)建桌面的神經(jīng)輻射場(chǎng) (NeRF)。最重要的是，該神經(jīng)輻射場(chǎng)經(jīng)過(guò)訓(xùn)練不僅可以渲染 RGB 顏色，還可以渲染來(lái)自預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型的圖像特征。這會(huì)產(chǎn)生一種場(chǎng)景表征，稱為蒸餾特征場(chǎng)（DFF），它將 2D 特征圖的知識(shí)嵌入到 3D 體積中。然后，機(jī)器人參考演示和語(yǔ)言指令來(lái)抓取用戶指定的物體。

該研究的一大亮點(diǎn)是從 CLIP 模型中提取密集的二維特征，來(lái)給蒸餾特征場(chǎng)提供監(jiān)督。此前，OpenAI 的 CLIP 模型僅提供圖片尺度的全局特征，而 3D 神經(jīng)場(chǎng)的生成需要密集的 2D 描述符。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)使用 MaskCLIP 對(duì) CLIP 的視覺(jué)模型進(jìn)行重新參數(shù)化，提取 patch 級(jí)密集特征。此方法不需要重新訓(xùn)練，可以保證其描述符與語(yǔ)言模型的對(duì)齊。

具身智能（embodied intelligence) 囊括機(jī)器人，自動(dòng)駕駛汽車(chē)等和物理世界有相互作用的人工智能體。這類(lèi)智能體需要對(duì)物理世界同時(shí)進(jìn)行幾何空間和語(yǔ)義的理解來(lái)進(jìn)行決策。

為了實(shí)現(xiàn)這樣的表征能力，研究團(tuán)隊(duì)將視覺(jué)基礎(chǔ)模型和視覺(jué) - 語(yǔ)言基礎(chǔ)模型中經(jīng)過(guò)預(yù)訓(xùn)練的二維視覺(jué)表征通過(guò)可微分的三維渲染，構(gòu)建為 3D 特征場(chǎng)。團(tuán)隊(duì)將這個(gè)方法運(yùn)用在 6-DOF 機(jī)器人抓取任務(wù)上，這種方法叫作機(jī)器人操作特征場(chǎng)（Feature Fields for Robotic Manipulation，F(xiàn)3RM）的方法需要解決三個(gè)獨(dú)立的問(wèn)題：

首先，如何以合理的速度自動(dòng)生成場(chǎng)景的特征場(chǎng)；
其次，如何表征和推斷 6-DOF 抓取和放置的姿勢(shì)；
最后，如何結(jié)合語(yǔ)言指導(dǎo)來(lái)實(shí)現(xiàn)開(kāi)放文本命令。

自然語(yǔ)言提供了一種將機(jī)器人操作擴(kuò)展到開(kāi)放物體集的方法，為目標(biāo)物體照片不準(zhǔn)確或不可用的情況提供了一種替代方案。在測(cè)試時(shí)，機(jī)器人接收來(lái)自用戶的開(kāi)放文本語(yǔ)言查詢，其中指定要操作的物體。如下圖 3 所示，語(yǔ)言指導(dǎo)的姿勢(shì)推斷過(guò)程包括三個(gè)步驟：

檢索相關(guān)演示；
初始化粗略抓取；
語(yǔ)言指導(dǎo)的抓取姿勢(shì)優(yōu)化。

實(shí)驗(yàn)結(jié)果

我們先來(lái)看一些機(jī)器人抓取的實(shí)驗(yàn)效果。例如，使用 F3RM 方法，機(jī)器人可以輕松抓取一個(gè)螺絲刀工具：

抓取小熊玩偶：

抓取透明杯子和藍(lán)色杯子：

把物體掛放在不同材質(zhì)的架子上：

F3RM 還可以識(shí)別并抓取一些不常見(jiàn)的物體，比如化學(xué)領(lǐng)域會(huì)用到的量勺、量杯：

為了表明機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn)，并且可以泛化到未見(jiàn)過(guò)的新型物體上，該研究還進(jìn)行了一系列抓取和放置任務(wù)的實(shí)驗(yàn)，我們來(lái)看下實(shí)驗(yàn)結(jié)果。

從示例中學(xué)會(huì)抓握

如下圖 4 所示，該研究進(jìn)行了 6-DOF 抓取和放置任務(wù)，并為每個(gè)任務(wù)提供兩個(gè)演示。為了標(biāo)記演示，該研究將 NeRF 重建的點(diǎn)云加載到虛擬現(xiàn)實(shí)中，并使用手動(dòng)控制器將夾子移動(dòng)到所需的姿勢(shì)（圖 2 (a)）。

機(jī)器人在抓取和放置任務(wù)上的成功率如下表 1 所示：

下圖 5 展示了該研究所提方法在未見(jiàn)過(guò)的新物體上的泛化情況：

此外，語(yǔ)義特征和詳細(xì) 3D 幾何圖形之間的融合提供了一種對(duì)密集的堆疊進(jìn)行建模的方法。例如，在下圖 6 (b) 中，毛毛蟲(chóng)玩具被埋在其他玩具下面。圖 6 (c) 顯示機(jī)器人抓住了毛毛蟲(chóng)玩具，并將其從玩具堆的底部拾起。

語(yǔ)言指導(dǎo)的機(jī)器人抓取

該研究設(shè)置了 13 個(gè)桌面場(chǎng)景來(lái)研究使用開(kāi)放文本語(yǔ)言和 CLIP 特征場(chǎng)來(lái)指定要操作物體的可行性。

在下圖 7 中，機(jī)器人在語(yǔ)言指導(dǎo)下成功執(zhí)行了 5 個(gè)抓握。整個(gè)場(chǎng)景包含 11 個(gè)物體，其中 4 個(gè)來(lái)自 YCB 物體數(shù)據(jù)集。

語(yǔ)言指導(dǎo)的操作成功率如下表 2 所示：

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

大嘴業(yè)話-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

萬(wàn)家樂(lè)JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬(wàn)家樂(lè) | 2013-01-17

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

CSR8670CSR8675智能語(yǔ)音Alexa藍(lán)牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

國(guó)際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺(tái)電腦... 一臺(tái)來(lái)創(chuàng)建AI... 一臺(tái)來(lái)模擬AI... 一臺(tái)來(lái)運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

海聯(lián)達(dá)（Aigale）Ai-HD1 無(wú)線全高清套件拆解

zhuwei0710 | 2013-04-28

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

AI+機(jī)器視覺(jué)成趨勢(shì)，圖文詳解N大應(yīng)用場(chǎng)景

智能計(jì)算安森美 AI 機(jī)器視覺(jué) | 2024-07-31

WTC-AI型太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

如何快速搭建手寫(xiě)體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫(xiě)體識(shí)別 | 2022-07-29

釋說(shuō)芯語(yǔ)16：硬科技：構(gòu)建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

蘋(píng)果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)

<form id="16666"><s id="16666"><abbr id="16666"></abbr></s></form>