大模型加持的機(jī)器人有多強(qiáng),MIT CSAIL&IAIFI用自然語(yǔ)言指導(dǎo)機(jī)器人抓取物體
來(lái)自 MIT CSAIL 和 IAIFI 的研究者將準(zhǔn)確的 3D 幾何圖形與來(lái)自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來(lái),讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn),完成語(yǔ)言指導(dǎo)的操作。
最近,具身智能成為人工智能領(lǐng)域關(guān)注的一個(gè)焦點(diǎn)。從斯坦福大學(xué)的 VIMA 機(jī)器人智能體,到谷歌 DeepMind 推出首個(gè)控制機(jī)器人的視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)的模型 RT-2,大模型加持的機(jī)器人研究備受關(guān)注。
當(dāng)前,自監(jiān)督和語(yǔ)言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識(shí),這對(duì)于泛化來(lái)說(shuō)非常重要,但圖像特征是二維的。我們知道,機(jī)器人任務(wù)通常需要對(duì)現(xiàn)實(shí)世界中三維物體的幾何形狀有所了解。
基于此,來(lái)自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(chǎng)(Distilled Feature Field,DFF),將準(zhǔn)確的 3D 幾何圖形與來(lái)自 2D 基礎(chǔ)模型的豐富語(yǔ)義結(jié)合起來(lái),讓機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn),完成語(yǔ)言指導(dǎo)的操作。
論文地址:https://arxiv.org/abs/2308.07931
具體來(lái)說(shuō),該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法,并利用強(qiáng)大的空間和語(yǔ)義先驗(yàn)泛化到未見(jiàn)過(guò)物體上。使用從視覺(jué) - 語(yǔ)言模型 CLIP 中提取的特征,該研究提出了一種通過(guò)開(kāi)放性的自然語(yǔ)言指令對(duì)新物體進(jìn)行操作,并展示了這種方法泛化到未見(jiàn)過(guò)的表達(dá)和新型物體的能力。
方法介紹
該研究分析了少樣本和語(yǔ)言指導(dǎo)的操作,其中需要在沒(méi)見(jiàn)過(guò)類(lèi)似物體的情況下,給定抓取演示或文本描述,機(jī)器人就能拾取新物體。為了實(shí)現(xiàn)這一目標(biāo),該研究圍繞預(yù)訓(xùn)練圖像嵌入構(gòu)建了系統(tǒng),這也是從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集中學(xué)習(xí)常識(shí)先驗(yàn)的可靠方法。
下圖 1 描述了該研究設(shè)計(jì)的系統(tǒng):機(jī)器人首先使用安裝在自拍桿上的 RGB 相機(jī)拍攝一系列照片來(lái)掃描桌面場(chǎng)景,這些照片用于構(gòu)建桌面的神經(jīng)輻射場(chǎng) (NeRF)。最重要的是,該神經(jīng)輻射場(chǎng)經(jīng)過(guò)訓(xùn)練不僅可以渲染 RGB 顏色,還可以渲染來(lái)自預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型的圖像特征。這會(huì)產(chǎn)生一種場(chǎng)景表征,稱為蒸餾特征場(chǎng)(DFF),它將 2D 特征圖的知識(shí)嵌入到 3D 體積中。然后,機(jī)器人參考演示和語(yǔ)言指令來(lái)抓取用戶指定的物體。
該研究的一大亮點(diǎn)是從 CLIP 模型中提取密集的二維特征,來(lái)給蒸餾特征場(chǎng)提供監(jiān)督。此前,OpenAI 的 CLIP 模型僅提供圖片尺度的全局特征,而 3D 神經(jīng)場(chǎng)的生成需要密集的 2D 描述符。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)使用 MaskCLIP 對(duì) CLIP 的視覺(jué)模型進(jìn)行重新參數(shù)化,提取 patch 級(jí)密集特征。此方法不需要重新訓(xùn)練,可以保證其描述符與語(yǔ)言模型的對(duì)齊。
具身智能 (embodied intelligence) 囊括機(jī)器人,自動(dòng)駕駛汽車(chē)等和物理世界有相互作用的人工智能體。這類(lèi)智能體需要對(duì)物理世界同時(shí)進(jìn)行幾何空間和語(yǔ)義的理解來(lái)進(jìn)行決策。
為了實(shí)現(xiàn)這樣的表征能力,研究團(tuán)隊(duì)將視覺(jué)基礎(chǔ)模型和視覺(jué) - 語(yǔ)言基礎(chǔ)模型中經(jīng)過(guò)預(yù)訓(xùn)練的二維視覺(jué)表征通過(guò)可微分的三維渲染,構(gòu)建為 3D 特征場(chǎng)。團(tuán)隊(duì)將這個(gè)方法運(yùn)用在 6-DOF 機(jī)器人抓取任務(wù)上,這種方法叫作機(jī)器人操作特征場(chǎng)(Feature Fields for Robotic Manipulation,F(xiàn)3RM)的方法需要解決三個(gè)獨(dú)立的問(wèn)題:
首先,如何以合理的速度自動(dòng)生成場(chǎng)景的特征場(chǎng);
其次,如何表征和推斷 6-DOF 抓取和放置的姿勢(shì);
最后,如何結(jié)合語(yǔ)言指導(dǎo)來(lái)實(shí)現(xiàn)開(kāi)放文本命令。
自然語(yǔ)言提供了一種將機(jī)器人操作擴(kuò)展到開(kāi)放物體集的方法,為目標(biāo)物體照片不準(zhǔn)確或不可用的情況提供了一種替代方案。在測(cè)試時(shí),機(jī)器人接收來(lái)自用戶的開(kāi)放文本語(yǔ)言查詢,其中指定要操作的物體。如下圖 3 所示,語(yǔ)言指導(dǎo)的姿勢(shì)推斷過(guò)程包括三個(gè)步驟:
檢索相關(guān)演示;
初始化粗略抓取;
語(yǔ)言指導(dǎo)的抓取姿勢(shì)優(yōu)化。
實(shí)驗(yàn)結(jié)果
我們先來(lái)看一些機(jī)器人抓取的實(shí)驗(yàn)效果。例如,使用 F3RM 方法,機(jī)器人可以輕松抓取一個(gè)螺絲刀工具:
抓取小熊玩偶:
抓取透明杯子和藍(lán)色杯子:
把物體掛放在不同材質(zhì)的架子上:
F3RM 還可以識(shí)別并抓取一些不常見(jiàn)的物體,比如化學(xué)領(lǐng)域會(huì)用到的量勺、量杯:
為了表明機(jī)器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺(jué)和語(yǔ)言先驗(yàn),并且可以泛化到未見(jiàn)過(guò)的新型物體上,該研究還進(jìn)行了一系列抓取和放置任務(wù)的實(shí)驗(yàn),我們來(lái)看下實(shí)驗(yàn)結(jié)果。
從示例中學(xué)會(huì)抓握
如下圖 4 所示,該研究進(jìn)行了 6-DOF 抓取和放置任務(wù),并為每個(gè)任務(wù)提供兩個(gè)演示。為了標(biāo)記演示,該研究將 NeRF 重建的點(diǎn)云加載到虛擬現(xiàn)實(shí)中,并使用手動(dòng)控制器將夾子移動(dòng)到所需的姿勢(shì)(圖 2 (a))。
機(jī)器人在抓取和放置任務(wù)上的成功率如下表 1 所示:
下圖 5 展示了該研究所提方法在未見(jiàn)過(guò)的新物體上的泛化情況:
此外,語(yǔ)義特征和詳細(xì) 3D 幾何圖形之間的融合提供了一種對(duì)密集的堆疊進(jìn)行建模的方法。例如,在下圖 6 (b) 中,毛毛蟲(chóng)玩具被埋在其他玩具下面。圖 6 (c) 顯示機(jī)器人抓住了毛毛蟲(chóng)玩具,并將其從玩具堆的底部拾起。
語(yǔ)言指導(dǎo)的機(jī)器人抓取
該研究設(shè)置了 13 個(gè)桌面場(chǎng)景來(lái)研究使用開(kāi)放文本語(yǔ)言和 CLIP 特征場(chǎng)來(lái)指定要操作物體的可行性。
在下圖 7 中,機(jī)器人在語(yǔ)言指導(dǎo)下成功執(zhí)行了 5 個(gè)抓握。整個(gè)場(chǎng)景包含 11 個(gè)物體,其中 4 個(gè)來(lái)自 YCB 物體數(shù)據(jù)集。
語(yǔ)言指導(dǎo)的操作成功率如下表 2 所示:
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。