馬斯克的通用人形機(jī)器人招來群嘲,學(xué)者:先像人手一樣抓取吧
硅谷“鋼鐵俠”馬斯克又放大招:Tesla Bot——身高1.72米,體重56公斤,身材苗條,外形優(yōu)美。馬斯克在PPT上說,Tesla Bot的原型機(jī)(prototype)明年就要來了。不過,外界的群嘲來得更快——知名科技媒體The Verge對此標(biāo)題便是:《別想太多,馬斯克的Tesla Bot就是個笑話》。
本文引用地址:http://cafeforensic.com/article/202108/427760.htm當(dāng)下,從真實應(yīng)用場景出發(fā)設(shè)計的機(jī)器人,執(zhí)行抓取任務(wù)的的看起來像機(jī)械臂,能跑起來的四足機(jī)器人看起來像狗。即使強(qiáng)如波士頓動力,設(shè)計出來的機(jī)器人Atlas也是手長腿短,頭重腳輕——它身高150cm,體重86公斤,與其說像人,不如說像黑猩猩。
波士頓動力家族機(jī)器人合影
Tesla Bot
波士頓動力的Atlas可以5.4km/h的速度移動。而Tesla Bot可以8km/h速度運動,這意味著Tesla Bot不僅更好看,運動性能還更好。另外,波士頓動力的機(jī)器人是沒有手指的。而Tesla Bot則有一雙“美手”。
不僅外觀像人,馬斯克還想讓這個機(jī)器人像人一樣具有“通用智能”。一位卡內(nèi)基梅隆大學(xué)的人工智能和機(jī)器人學(xué)博士接受澎湃新聞(www.thepaper.cn)采訪時表示:“現(xiàn)代的人工智能基于學(xué)習(xí)算法,但是目前在機(jī)器控制領(lǐng)域這些算法的效果還難以令人滿意,從這個角度說,一個可以在明年發(fā)布的‘通用’機(jī)器人肯定不會像人們期待的和終結(jié)者一樣先進(jìn)?!?/p>
這位卡內(nèi)基梅隆大學(xué)的人工智能和機(jī)器人學(xué)博士表示,“從另外一個角度說,機(jī)器人領(lǐng)域的硬件和算法是高度相關(guān)的,在關(guān)節(jié)控制、手部精細(xì)操作、視覺信息理解等幾乎所有的技術(shù)細(xì)節(jié)上,現(xiàn)在的硬件層面上也有太多要攻克的難題。在現(xiàn)在的學(xué)術(shù)界和業(yè)界發(fā)展?fàn)顩r下,‘特斯拉能否在明年發(fā)布一個通用人形人工智能機(jī)器人’還不應(yīng)該是一個可以被嚴(yán)肅討論的問題。除非特斯拉重新定義了‘通用人形人工智能機(jī)器人’。不過在嚴(yán)肅的科研攻關(guān)和學(xué)術(shù)討論之外,馬斯克把這些技術(shù)領(lǐng)域的愿景帶入公眾的視野,從星鏈計劃、完全自動駕駛到移民火星,都是如此。我覺得長期來看這種技術(shù)討論的大眾化是有他的正面作用的?!?/p>
其實,就運動能力來說,要在一年內(nèi)做出已經(jīng)很難。工程類知名學(xué)術(shù)期刊IEEE Spectrum的Evan Ackerman表示,“像波士頓動力公司和敏捷機(jī)器人公司這樣的公司幾十年來一直在研究可以在人類環(huán)境中導(dǎo)航的機(jī)器人,但這仍然是一個非常困難的問題。我不知道為什么馬斯克認(rèn)為他可以突然做得更好?!?/p>
CNN(美國有線電視新聞網(wǎng),Cable News Network)稱伊隆·馬斯克又向其長長的‘明年’就發(fā)布清單中增加了一項(標(biāo)題為《Elon Musk just added a robot to his list of things always coming'next year.'For now he's got a guy in a suit》)。報道中指出,雖然馬斯克在特斯拉和SpaceX中的工作顛覆了汽車和航天業(yè),但他也以錯過最后期限和過度承諾聞名。
彭博社分析,馬斯克常常在僅僅有原型的時候就公開產(chǎn)品——基本是在一個想法成為實際產(chǎn)品前就售賣它。2017年的11月,特斯拉公開了他們的Semi卡車,但該車最早要被推遲到2022年上市,部分原因是制造更大的電池面臨挑戰(zhàn)。華爾街風(fēng)投機(jī)構(gòu)Loup Ventures知名分析師Gene Munster表示,“伊隆有遠(yuǎn)大的愿景。對投資者來說,特斯拉機(jī)器人是他們可以發(fā)揮想象的新事物,D1芯片更具實質(zhì)意義,但對于大多數(shù)投資者來說卻很無聊?!?/p>
當(dāng)天現(xiàn)場,特斯拉CEO馬斯克通過幾張PPT介紹了Tesla Bot的基本情況:機(jī)器人面部是一個顯示屏,顯示屏背后是多個攝像頭,手部達(dá)到人類水平(Human-level hands)。
機(jī)器人面部配備了特斯拉在自動駕駛中使用的Autopilot攝像頭充當(dāng)感知系統(tǒng),胸腔里內(nèi)置FSD自研芯片。Tesla Bot可以8km/h的速度運動,提起約20公斤的重物,有約68公斤的硬舉能力。特斯拉已有的多攝像頭神經(jīng)網(wǎng)絡(luò)、規(guī)劃能力、標(biāo)記能力都會應(yīng)用到Tesla Bot中。
馬斯克在8月20日的特斯拉AI日上稱,Tesla Bot將用來處理“無聊、重復(fù)和危險的工作”,比如讓機(jī)器人幫忙跑雜貨店拿東西,目標(biāo)將是用于通用機(jī)器人的人工智能技術(shù)。在他們的計劃中,Tesla bot將會達(dá)到和人類的尺寸以及重量相近的物理特性,并且會具有用于自動駕駛的相機(jī)系統(tǒng)和計算單元。
馬斯克簡短介紹完Tesla bot不久之后,一位形似日本超級變變變的演員穿著緊身衣就在舞臺上尬舞起來,除了開頭登臺是機(jī)械舞,之后不知道是什么舞蹈。馬斯克笑著說,“演員不是真正的機(jī)器人,但特斯拉機(jī)器人將是真實的?!睂τ谔厮估Q的將于明年發(fā)布Tesla Bot的前景如何,上海交通大學(xué)副教授馬道林在接受澎湃新聞(www.thepaper.cn)采訪時表示,發(fā)布機(jī)器人硬件樣機(jī)本身,一定可以實現(xiàn)。真正的難度在于這個機(jī)器人能做什么,而對于這方面特斯拉并沒有承諾什么?!拔覀€人覺得他們是開了一條嶄新的任務(wù)線,馬斯克口中承諾的是一年后拿出Tesla Bot樣機(jī)(Prototype)。通常樣機(jī)的核心功能是做概念驗證,并不會期待它能真的去執(zhí)行多么復(fù)雜的任務(wù)。在前期積累的基礎(chǔ)上經(jīng)過未來一年的持續(xù)研發(fā),我猜測,他們拿出來的應(yīng)該是一款可以慢慢走并和觀眾招招手、點點頭和顯示笑臉的產(chǎn)品?!?/p>
馬道林進(jìn)一步解釋,特斯拉的技術(shù)長處除了硬件制造之外,很大程度在于基于人工智能的導(dǎo)航(Navigation)能力,特斯拉會將自動駕駛汽車所具備的對周圍環(huán)境的三維重建和感知以及決策能力移植到機(jī)器人上。
“在能做什么方面,我估計他們一定會突出導(dǎo)航和移動能力,比如說通過讓機(jī)器人所在的房間或商店很復(fù)雜來展示他們強(qiáng)大的導(dǎo)航能力,而弱化甚至于不展示操作能力?!瘪R道林預(yù)計,“理想情況下,明年的demo會正如馬斯克所舉例的那樣,演示人員說‘去某某地方把某某物品拿給我’,Tesla Bot通過語音識別理解了這一任務(wù),導(dǎo)航并走到那里,以簡單的方式拿到物品并送到演示人員面前。演示結(jié)束?!?/p>
一位在機(jī)器人和人工智能領(lǐng)域發(fā)表了多篇高影響力論文的機(jī)器人抓取和操控(Grasping and manipulation)領(lǐng)域的資深研究者向澎湃新聞(www.thepaper.cn)表示:“從物體抓取操作(grasping/manipulation)的角度來說,基于五指的算法都還不成熟,機(jī)器人領(lǐng)域的算法都是跟機(jī)械結(jié)構(gòu)適配的,連硬件都沒有的時候,對相關(guān)算法的討論是沒法進(jìn)行的。我不認(rèn)為Tesla在明年可以發(fā)布人們期待的通用人形機(jī)器人,馬斯克的這個項目很可能會一直擱置下去?!?/p>
“只能說那是一種愿景,人類覺得一個足夠智能的機(jī)器人應(yīng)該可以被造的和人外觀類似,但是為了實現(xiàn)這個目標(biāo),需要做的還有很多。另外,為了讓他‘像人’有時候需要付出額外的努力,現(xiàn)在在傳感器、感知算法、控制算法、機(jī)器人硬件等領(lǐng)域的差距還很遠(yuǎn)。馬斯克在發(fā)布會上沒有介紹相關(guān)細(xì)節(jié),我只能從我了解的情況判斷,明年發(fā)布的機(jī)會應(yīng)該是不大的,或者說可以發(fā)布的東西和一些公眾基于科幻做出的想象是有很大落差的,”一位美國頂尖大學(xué)機(jī)器人領(lǐng)域教授表示。
雖然對于特斯拉所說的能在明年發(fā)布通用人形機(jī)器人并不看好,但馬道林認(rèn)為,“不管怎么說,更多的大型科技公司進(jìn)入機(jī)器人領(lǐng)域,利用其強(qiáng)大的工程和制造能力刷新硬件制造的海平面,對這一領(lǐng)域的研究和發(fā)展都是很好的事情,讓我們拭目以待吧!”
馬道林本科和博士畢業(yè)于北京大學(xué),后進(jìn)入麻省理工學(xué)院進(jìn)行博士后研究,并于去年加入上海交通大學(xué)船舶海洋與建筑工程學(xué)院擔(dān)任副教授。馬教授的論文“基于觸覺測量的相對運動跟蹤和外部接觸感知”(Extrinsic Contact Sensing with Relative-Motion Tracking from Distributed Tactile Measurements)于今年的機(jī)器人領(lǐng)域頂級會議ICRA上獲得最佳論文獎。
以下為馬道林接受澎湃新聞采訪實錄:
澎湃新聞:周五的Tesla AI Day中,馬斯克表示,將“自動駕駛”和其他技術(shù)結(jié)合,遷移到人形機(jī)器人身上是順理成章的。您認(rèn)同這個通往通用人形機(jī)器人的路徑么?相較于自動駕駛等技術(shù),實現(xiàn)人形機(jī)器人的獨有的難點有哪些?
馬道林:特斯拉,是一家智能設(shè)備硬件科技公司,這個通往通用人形機(jī)器人的路徑,我的理解,一是特斯拉有優(yōu)秀的硬件工程師和一流的加工工廠,他們擅長去制造機(jī)器人所需的電池、驅(qū)動電機(jī)、傳感器等硬件,這些公司運用已知技術(shù)做起硬件迭代來可以遠(yuǎn)遠(yuǎn)比大學(xué)實驗室更強(qiáng)大;二是,特斯拉有在自動駕駛領(lǐng)域積累的強(qiáng)大的人工智能計算硬件和算法基礎(chǔ),特斯拉自動駕駛汽車所具備的基于視覺對周圍環(huán)境的重建和感知能力,可以輕松地移植到機(jī)器人上,去輔助機(jī)器人的導(dǎo)航和決策。三是,技術(shù)之外,特斯拉現(xiàn)在很有錢,而且在全球新能源政策走向的支持下,未來也十分看好,不差錢,對他們來說,燒點錢做些高風(fēng)險但有很大媒體關(guān)注度的事情,應(yīng)該挺劃算。
從學(xué)術(shù)界的進(jìn)展來看,人形機(jī)器人的難點還是很多的。一方面是硬件設(shè)計方面,雖然波士頓動力已經(jīng)展示了很強(qiáng)大的硬件設(shè)計,但世界上似乎還沒有另外一家公司的人形機(jī)器人能接近波士頓動力。雖然人們早就知道如何去實現(xiàn)幾十個關(guān)節(jié)的運動結(jié)構(gòu)設(shè)計,但是在驅(qū)動方面,有著大量的工程和技術(shù)挑戰(zhàn),這幾十個關(guān)節(jié)所需要的驅(qū)動器有多種不同大小或規(guī)格,在許多關(guān)節(jié)處的驅(qū)動結(jié)構(gòu)在結(jié)構(gòu)體積受到限制的情況下還要滿足扭矩和速度方面的苛刻需求,難度不小。波士頓動力在液壓驅(qū)動方面的造詣恐怕是其他公司所望塵莫及的。而另一方面是運動平衡。和四足機(jī)器人不同的是,人形機(jī)器人兩條腿在運動中需要兩條腿交替支撐,一旦其中一條腿的節(jié)拍跟不上就會摔倒。因此人形機(jī)器人更多地要在運動中實現(xiàn)自身的動態(tài)平衡,而在移動或執(zhí)行操作任務(wù)中保持如此復(fù)雜多體系統(tǒng)的動態(tài)順滑的自平衡,是很有挑戰(zhàn)性的規(guī)劃和控制問題。2015年Darpa機(jī)器人挑戰(zhàn)賽中機(jī)器人屢屢跌倒的現(xiàn)狀給許多人留下了深刻的印象。
澎湃新聞:目前對人形機(jī)器人一個很重要的期待是手部的精細(xì)操作,這和馬老師你在機(jī)器觸覺領(lǐng)域的研究息息相關(guān)。今年您在ICRA上獲得的best paper也是這個領(lǐng)域的成果,請問這個領(lǐng)域目前的困難有哪些呢?
馬道林:前面還只是說了人形機(jī)器人的移動或運動問題,要讓人形機(jī)器人對人類有用,很大程度上要依賴于解決機(jī)械手精細(xì)操作或者說靈巧操作問題。把機(jī)械手靈巧操作作為一個獨立的機(jī)器人子系統(tǒng)來理解的話,要解決的問題要包含硬件驅(qū)動,傳感與感知,以及規(guī)劃與控制這三個方面。其中,硬件設(shè)計是基礎(chǔ),也是相對來說最容易理解并進(jìn)行仿生設(shè)計的部分;但另外的兩個方面則還困難重重。
對于傳感和感知部分。我們今年在ICRA上發(fā)表的工作,是解決了觸覺傳感和感知方面的一個重要問題,實現(xiàn)了對手中物體運動狀態(tài)的精確跟蹤和對物體外部接觸的定位感知,我們期待在未來的工作中將觸覺感知和與現(xiàn)在業(yè)已取得巨大進(jìn)展的視覺傳感和感知相結(jié)合,為機(jī)器人操作提供較為完備的感知信息。
而對于精細(xì)操作所需的規(guī)劃和控制,相對于人們的期待,目前大家的研究還只是嬰兒階段,有相當(dāng)長的路要走。這里面的挑戰(zhàn)既有硬件不完備帶來的研究限制,更有來自于操作問題本身的難度。首先,機(jī)器人操作要解決的問題是通過對機(jī)械手自身的控制,調(diào)節(jié)手中物體與外界(各種并不規(guī)則的)環(huán)境的接觸行為,以實現(xiàn)物體位姿或物體與環(huán)境相互關(guān)系的改變,在問題復(fù)雜度上顯著高于機(jī)器人行走問題。其次是機(jī)器人操作的任務(wù)包羅萬象,從研究的角度也很難找到一個操作任務(wù)去代表所有任務(wù),難以找到理想的benchmark問題并攻關(guān)解決。最后,機(jī)器人操作,非常關(guān)鍵的是各種操作中接觸行為的理解和利用。多關(guān)節(jié)的手指、手掌以及外部環(huán)境,甚至于胳膊和身體等,處處都可以和物體發(fā)生接觸,需要理解和預(yù)測這些接觸行為對物體運動狀態(tài)的影響并妥善加以合理利用,這是非常復(fù)雜和困難的規(guī)劃任務(wù)。而且,在這些規(guī)劃和控制中,還要與我們前面提到的觸覺傳感和感知能力以及視覺傳感和感知能力相結(jié)合,才可以形成完整的控制閉環(huán)。
澎湃新聞:特斯拉給出了在一年內(nèi)發(fā)布“通用人形機(jī)器人”Tesla bot的時間表,您覺得這么短的時間內(nèi)完成這個目標(biāo)是可能的么?
馬道林:我個人覺得他們是開了一條嶄新的任務(wù)線。馬斯克口中承諾的是一年后拿出Tesla Bot樣機(jī)(Prototype)。通常樣機(jī)的核心功能是做概念驗證,并不會期待它能真的去執(zhí)行多么復(fù)雜的任務(wù)。在前期積累的基礎(chǔ)上經(jīng)過未來一年的持續(xù)研發(fā),我猜測,他們拿出來的應(yīng)該是一款可以慢慢走并和觀眾招招手、點點頭和顯示笑臉的產(chǎn)品。特斯拉的技術(shù)長處除了硬件制造之外,很大程度在于基于人工智能的Navigation能力,也就是導(dǎo)航,特斯拉會將自動駕駛汽車所具備的對周圍環(huán)境的三維重建和感知以及決策能力移植到機(jī)器人上。我預(yù)計,理想情況下,明年的demo會正如馬斯克所舉例的那樣,演示人員說“**,去某某地方把某某物品拿給我”,Tesla Bot通過語音識別理解了這一任務(wù)只會,導(dǎo)航并走到那里,以簡單的方式拿到物品并送到演示人員面前。演示結(jié)束。
所以,發(fā)布機(jī)器人硬件樣機(jī)本身,是一定可以實現(xiàn)的。因為問題的真正難度在于這個機(jī)器人能做什么事,特斯拉也沒有承諾什么。在這方面,我估計他們一定會突出導(dǎo)航和移動能力,,比如說通過讓機(jī)器人所在的房間或商店很復(fù)雜來展示他們強(qiáng)大的導(dǎo)航能力,而弱化甚至于不展示操作能力。但不管怎么說,更多的大型科技公司進(jìn)入機(jī)器人領(lǐng)域,利用其強(qiáng)大的工程和制造能力刷新硬件制造的海平面,對這一領(lǐng)域的研究和發(fā)展都是很好的事情,讓我們拭目以待吧!
評論