人形機(jī)器人:實現(xiàn)批量應(yīng)用的瓶頸技術(shù)是什么
為了實現(xiàn)稍微批量一點兒的人形機(jī)器人,例如上千臺、上萬臺的應(yīng)用,真正能夠創(chuàng)造價值,而不是給人看的應(yīng)用,其瓶頸技術(shù)在哪里?中國工程院外籍院士、德國國家工程院院士、德國漢堡大學(xué)教授張建偉發(fā)問道。
本文引用地址:http://cafeforensic.com/article/202409/463392.htm在8 月24 日“探索人形機(jī)器人新紀(jì)元:創(chuàng)新、挑戰(zhàn)與機(jī)遇”論壇之前,已有幾位中外專家提到了具身智能的數(shù)據(jù)、能源、材料、關(guān)鍵零部件等問題。那么,從各廠商的具體實踐角度,還有哪些瓶頸技術(shù)問題?有哪些突破的建議?
圖:“探索人形機(jī)器人新紀(jì)元:創(chuàng)新、挑戰(zhàn)與機(jī)遇”論壇
1 已“能跑會跳”,還需“心靈手巧”
智昌公司董事長兼總經(jīng)理、復(fù)旦大學(xué)教授甘中學(xué)指出,現(xiàn)在把人形機(jī)器人真正用到實踐中,不管是用于工業(yè)、服務(wù)業(yè),還是其他特種行業(yè),還是有差距的。
如果把機(jī)器人分成三大類:一類是能跑會跳的,代表性企業(yè)有宇樹科技等;有的心靈手巧,例如北京因時機(jī)器人公司;還有情感類的。
目前工業(yè)和服務(wù)業(yè)的一種比較關(guān)鍵的技術(shù)是心靈手巧技術(shù),只有把心靈手巧做好,才能在工業(yè)界實現(xiàn)大部分的復(fù)雜動作,服務(wù)業(yè)也能照顧人。
目前在“能跑會跳”方面,很多企業(yè)已做得不錯了,但是在“心靈手巧”上,還不夠?qū)嵱?。無論是特斯拉還是國內(nèi)做的,手的動作跟人的動作比還相差甚遠(yuǎn)。
2 能耗、仿生肌肉骨骼、人機(jī)物的接觸安全性
在落地能用的挑戰(zhàn)方面,月泉仿生公司聯(lián)合創(chuàng)始人、吉林大學(xué)唐敖慶講席教授總結(jié)如下。
①能耗的問題。月泉的能耗技術(shù)已經(jīng)降到了原來傳統(tǒng)機(jī)器人能耗的1/30,接近于1/32,很接近人的能耗了。
②手和手臂是真正決定機(jī)器人能夠完成什么任務(wù)的關(guān)鍵。但是人手的技術(shù)還差得非常多,為此,月泉提出了一項新技術(shù):“仿生拉壓體”機(jī)器人技術(shù)。它是按照人的肌肉骨骼的作用原理來做的,把關(guān)節(jié)完全放開了,而且它的驅(qū)動是采用人工肌肉式的驅(qū)動——月泉專利的磁驅(qū)動的電氣人工肌肉,即對于所有關(guān)節(jié),都恢復(fù)了人體的自然生理運動,膝關(guān)節(jié)的自由度高達(dá)12 個,而現(xiàn)在的人形機(jī)器人的膝關(guān)節(jié)一般只有1 個自由度,但月泉的完全放開了,大腿骨和小腿骨是6 個,髕骨和大腿是6個自由度。放開之后,原來覺得可能比較難,現(xiàn)在迎刃而解,這樣能夠真正呈現(xiàn)人體自然的行走步態(tài),而且能耗有顯著的下降。
③必須在批量生產(chǎn)或落地之前解決的一件大事是人- 機(jī)- 物的接觸安全性。這非常重要,因為走進(jìn)家庭、和人類協(xié)同工作后,接觸安全性非常重要。如果是金屬的剛性部件,高速運動起來跟人近距離接觸是非常危險的,而且對于貴重的儀器設(shè)備、家電、家具等都是不太友好的。所以現(xiàn)在提出一個概念:像人一樣。因此一定要采用剛?cè)狁詈系慕Y(jié)構(gòu)去解決。這樣,它跟人接觸時,你感覺就像另外一個人。而且周邊的環(huán)境,包括人跟它近距離接觸不會有恐懼感。
3 眼、手和小臂技術(shù)很重要
小米集團(tuán)技術(shù)委副主席、手機(jī)部副總裁、機(jī)器人公司總經(jīng)理許多說,要進(jìn)入規(guī)?;瘧?yīng)用,是三者的平衡:
①精度,決定了能不能有效地完成。②速度,決定了效率,是商業(yè)成功很重要的因素。③負(fù)載,決定能干多少工作,例如在汽車工廠,搬運的東西從很輕的到可能一二十公斤,變化范圍較大,要用一個通用的本體實現(xiàn),壓力還是很大的。
回到核心技術(shù),要解決三個核心部件的問題。
①眼?,F(xiàn)在市場上大部分還是想用純視覺RGB 去解決,但是到底數(shù)據(jù)規(guī)模會到多少,其精度才能提升?1 條、11 條?現(xiàn)在還在探討。至少現(xiàn)在的1 條用生成數(shù)據(jù)訓(xùn)練的純視覺模型,精度大概還是厘米級,沒有像人們期待的亞毫米級。因為在工業(yè)上用的還是要用亞毫米精度去收斂,這時還是需要主動雙目。因為主動雙目能提供穩(wěn)定的亞毫米的空間點云信息,至少目前暫時是需要的。亞毫米空間點云這種主動雙目的機(jī)械視覺部件需要怎么去做?是今天產(chǎn)業(yè)界非常核心的一個問題。
②靈巧手。人們在探討3 指還是5 指。工業(yè)用3 指比較合適。因為5 指有點多余,且5 指用推桿電機(jī)的方式,對可靠性有挑戰(zhàn)?,F(xiàn)在的靈巧手還是很容易壞的,負(fù)載大一點兒就容易壞。
③小臂?,F(xiàn)在大臂是走工業(yè)的這一套路,基本上走25°的斜坡,拿約7~10 公斤是沒有問題的。但小臂使整個載重能力急劇下降,因為小臂要協(xié)同速度和精度,這對小臂的犧牲是比較大的。能否在小臂設(shè)計上有所突破?非常期待任雷教授(月泉、吉大)的完整臂產(chǎn)品給人們?nèi)ピ囉?。因為現(xiàn)在用傳統(tǒng)的諧波方式做的小臂有非常多的問題,要么做得很重。因為人形的腿部電機(jī)確定了之后,例如設(shè)計的是100 公斤、可以0.5 米/ 秒的速度行走,若臂的重量節(jié)省下來,余下就是給載重的。如果腿、臂做得越輕,例如做到70 公斤,就有可能有30公斤的載重空間;如果做到80 公斤,就只剩20 公斤。因此小臂的影響是非常大的。
可見,眼睛、手、小臂是未來人形機(jī)器人進(jìn)入批量供應(yīng)非常核心的技術(shù)。工業(yè)應(yīng)用是高精度、高速度的。若往民用去拓展,就要解決任雷教授(月泉、吉大)提到的接觸安全問題,但這相對比較容易解決,還是要先解決精度和速度的問題,再去解決接觸安全的問題,加上各種力控——這些相對比較容易。
4 實現(xiàn)“技術(shù)產(chǎn)品市場匹配”,進(jìn)行一輪輪迭代
如果批量使用,不一定是純技術(shù)的問題。就像移動互聯(lián)網(wǎng)時代經(jīng)常提到一個詞——PMF(產(chǎn)品市場匹配),到機(jī)器人可能叫TPMF(技術(shù)產(chǎn)品市場匹配),因為有些前沿的技術(shù)需要去突破,但如果要實現(xiàn)量產(chǎn),可能是有市場需求。市場需要什么樣的產(chǎn)品?這個產(chǎn)品需要什么樣的技術(shù)?然后把這些匹配度做高。這可能是最先能批量生產(chǎn),并且形成商業(yè)化規(guī)模的關(guān)鍵。
我們正處在第一輪的“技術(shù)產(chǎn)品市場匹配”階段,這一輪從電驅(qū)的關(guān)節(jié),包括無論是直線的還是旋轉(zhuǎn)的,然后結(jié)合現(xiàn)在的算力的主控,包括結(jié)構(gòu)也在快地形成標(biāo)準(zhǔn)統(tǒng)一。可能第一輪的技術(shù)已經(jīng)成熟,接下來就看把它包裝成什么產(chǎn)品,然后打什么市場,正好能夠匹配上,例如讓它踢球、搬運、進(jìn)入家庭。當(dāng)然,盡管家庭的需求度比較高,但目前的挑戰(zhàn)還比較大。因此,“加速進(jìn)化”會傾向于選一些偏簡單的場景,對技術(shù)要求沒那么高的,盡快把第一輪的技術(shù)產(chǎn)品市場匹配走完,然后再走第二輪。
第二輪可能需要更高的技術(shù),能做出更好的產(chǎn)品,能滿足更復(fù)雜的需求。
這樣一輪輪迭代,可能是接下來發(fā)展的節(jié)奏。
5 “影子模式”和更為復(fù)雜的“自動駕駛”
松延動力(北京)公司聯(lián)合創(chuàng)始人、CEO 張世璞從控制和智能的角度分析如下。
①從硬件方向看,過去的半年時間會發(fā)現(xiàn),當(dāng)1.0版本時,能夠讓它穩(wěn)定地行走、奔跑;但是當(dāng)強(qiáng)化學(xué)習(xí)、再去迭代時,再去測試跑和跳的過程時,又會暴露出新的問題。因此松延動力在思考能否去借鑒其他商業(yè)模式,例如車企的“影子模式”,把無論是后面的量產(chǎn)還是前面的研發(fā)體系量化,而且還能很好地去發(fā)現(xiàn)這次demo里的bug,怎樣去debug。因為人們都在談黑盒算法是黑盒,但實際上研發(fā)從某種程度上看,它的范式也存在一個黑盒,所以可能“影子模式”是一種比較好的方式去解決這個問題。
②在商業(yè)化過程中,不管是去工廠還是去服務(wù)業(yè),還是去2c,自動駕駛是最重要的一環(huán),因為不可能再讓一個人站在它后面拿著手柄去遙控機(jī)器人?,F(xiàn)在人們再去解決的一件事是“自動駕駛”,但這并不是簡單的從一個位置到另一個位置,它的姿態(tài)也在發(fā)生變化。所以怎樣能夠把感知、視覺和強(qiáng)化學(xué)習(xí)結(jié)合在一起,能夠讓它很穩(wěn)定、魯棒地做到自動駕駛,是松延動力正在突破的一個方向。
6 能源和電機(jī)是關(guān)卡
樂聚董事長冷曉琨稱,該公司今年在探索人形機(jī)器人進(jìn)入到場景化、產(chǎn)業(yè)化時也在探討這個問題,該公司已走到二個階段。
● 第一階段,今年樂聚銷量最高的場景還是科研展廳和高校,約100 多臺。過去一年基本把這方面的問題解決得差不多了。
● 現(xiàn)在第二步是進(jìn)入工業(yè)場景,包括跟幾家國內(nèi)外車廠簽了協(xié)議。這時遇到了一些新問題,并且不是人形機(jī)器人公司能搞定的。
其中一個是能源問題,現(xiàn)在大部分人形機(jī)器人的續(xù)航時間在1.5~2 小時,采用換電的方式也不太夠用,因為它的工作節(jié)拍很快,難以頻繁換電。電池容量問題是涉及基礎(chǔ)學(xué)科的問題,在基礎(chǔ)學(xué)科沒有突破之前,我們要怎么來解決?這是產(chǎn)業(yè)上急需解決的挑戰(zhàn)。
第二個是電機(jī)的功率密度問題。實際上在工業(yè)機(jī)器人時代,業(yè)界就在討論這個問題。例如100 公斤的機(jī)械臂拉一個10 公斤的物品,如果有一天10 公斤的機(jī)械臂能拉動100 公斤物品時,很多控制、智能算法等會有一個很大的提升幫助。同樣,人形機(jī)器人是一個欠驅(qū)動的系統(tǒng),所以電機(jī)的功率密度問題也是一個很大的需求點。但是電機(jī)每次的功率密度提升是以2%、5% 的方式,很難有一個很大的質(zhì)的突破,因此會影響接下來人形機(jī)器人產(chǎn)業(yè)化的落地。
因此,能源和電機(jī)問題接下來會較長時間地卡住人形機(jī)器人的發(fā)展。
7 “研發(fā)批量技術(shù)”
智平方創(chuàng)始人兼CEO 郭彥東稱,智平方的定位是面向產(chǎn)業(yè)的,因此在思考怎樣去研發(fā)批量的技術(shù),推出了“通用智能機(jī)器人”。
要想在量產(chǎn)中使用“通用智能機(jī)器人”,所要思考的問題跟在實驗室是非常不同的。智平方要投入在哪些核心技術(shù)上?
第一,“通用且精細(xì)”,或者稱為“通用且稠密的感知”。實際上,智平方在成立之初就重點投入這個方面??赡苡腥擞X得業(yè)內(nèi)的感知已經(jīng)做了很多年,甚至在實驗室已經(jīng)有了非常好的成果。但是無論是在量產(chǎn)汽車還是量產(chǎn)手機(jī)的時候會發(fā)現(xiàn),當(dāng)環(huán)境多變時,想要在通用的場景下實現(xiàn)非常精細(xì)化的感知,是一大核心挑戰(zhàn)。因此,智平方在成立之初,就把通用且精細(xì)的感知列為最核心的技術(shù),并且在這個方向取得了一定的進(jìn)展,也得到了國家及客戶的一些認(rèn)可。
一些友商也有類似的看法。例如小米的許多總經(jīng)理曾提到,以及硅谷的一些人形機(jī)器人公司火了一段時間之后,也都回頭認(rèn)為空間感知是機(jī)器人里最核心的問題之一。
第二,泛化操作。機(jī)器人不做大規(guī)模量產(chǎn)時,人們可能不會意識到操作的泛化是一個非常重要、一定要做的問題,包括端到端的架構(gòu)。如果只是做一個原型,用代碼去實現(xiàn)的效率是更高的。但是如果這種設(shè)備在生產(chǎn)實踐中持續(xù)地使用,隨著設(shè)備量的增大,以及環(huán)境的多變等情況,需要適應(yīng)的操作/ 任務(wù)越來越多,要寫的代碼就越來越多。可見,在討論是否要做端到端的這種大背景和前提下,如果把它放到要去批量的大背景下,就容易有一個非常有傾向性的答案。
第三,軟硬整合能力。因為郭彥東先生在主機(jī)廠做過負(fù)責(zé)人,不管叫自動駕駛還是AI 中臺,實際上,在主機(jī)廠做AI 和普通的做AI 還是很不一樣的。例如2016、2017 年時,Robotaxi 公司把PC 機(jī)放在汽車后備箱里去做展示,到真正在量產(chǎn)的汽車?yán)锶プ鲋悄芑?,遇到的挑?zhàn)是:怎樣把算法跑在一個算力受限的端側(cè)芯片上?怎樣去適應(yīng)量產(chǎn)裝置的不完美?并不是如果發(fā)現(xiàn)硬件裝置這個地方不是最好,我就花一兩億元/ 通過投資研發(fā)把它做好。實際上,我們要做的是如何在現(xiàn)有硬件性能的基礎(chǔ)上,把智能和軟件的能力發(fā)揮到極致。這是一個非常經(jīng)典的、帶有主機(jī)廠色彩的“研發(fā)批量技術(shù)”的思考。
8 感知、取舍、可用及成本的挑戰(zhàn)
大連蒂艾斯公司聯(lián)合創(chuàng)始人、總裁李博陽指出,我們做任何的智能決策或服務(wù),感知是第一步。但機(jī)器人的感知能力目前還有很大的欠缺。
不僅是空間感知,還包括對自身、本體狀態(tài)的感知,包括跟客戶/ 使用者之間的關(guān)系感知,以及跟周圍環(huán)境、應(yīng)用場景的感知。
我們?nèi)四軌蜃龀銮‘?dāng)、準(zhǔn)確的反饋,是基于充分感知到了所處的環(huán)境,以及我們現(xiàn)在應(yīng)該做什么。現(xiàn)在的感知階段往往從語音、傳感器等方式獲取一些信息,但是跟人相比還遠(yuǎn)遠(yuǎn)不夠。
從機(jī)器人廠商角度,提到批量化時,考慮的問題比較多。
首先,做取舍:應(yīng)該在什么場景下做出一個可批量化生產(chǎn)的產(chǎn)品?首先這個市場是真的有這個需求嗎?如果做的是一個偽需求的項目,不管怎么做,都不可能有批量化的可能性。
其次,可用性。我們的產(chǎn)品要在這種需求狀態(tài)下如何達(dá)到可用的狀態(tài)?就是可以達(dá)到我們希望它達(dá)到的效果?,F(xiàn)在很多機(jī)器人企業(yè)做出來的產(chǎn)品在需求場景下還沒有達(dá)到真的可用的狀態(tài),這就意味著它現(xiàn)在還沒有到量產(chǎn)的階段。
再有,成本。如果量產(chǎn),不管是零部件還是日常使用的算法,或者是大模型的支出,都應(yīng)該是在成本可控的范圍內(nèi)。
當(dāng)然,現(xiàn)在考慮這個問題還為時過早,現(xiàn)在還是一個百花齊放的階段,可以先不去考慮量產(chǎn),而是先考慮怎么能讓機(jī)器人達(dá)到在應(yīng)用場景下可以用,并且賣得出去,然后再考慮去降成本、批量化的問題。
9 高性價比的本體與有趣的靈魂
深圳市眾擎機(jī)器人公司創(chuàng)始人兼CEO 趙同陽把人形機(jī)器人分為4 大部分:優(yōu)秀的本體,高動態(tài)性能的理論控制算法,更具有泛化性的具身智能,非常接近人的通用AI。實際上,目前每一部分的落地都有巨大的挑戰(zhàn)。
①本體?,F(xiàn)在人們都走電動方案,電動方案不管從電機(jī)減速機(jī)還是到控制器,都屬于傳統(tǒng)行業(yè)。盡管手已在機(jī)械臂等行業(yè)經(jīng)過一定的驗證,但是在人形機(jī)器人上使用還是第一次。所以機(jī)器人未來做到工業(yè)級別,成本至少需要10~12 萬元。希望其價格接近汽車,還要具有10~15 年的壽命。如果家庭買一個機(jī)器人要10~18 萬元,可能希望能工作10 年以上。所以它對耐久性、可靠性要求是很高的,非常具有挑戰(zhàn)性。
另外,人形機(jī)器人不像機(jī)器狗,狗走出什么樣的步態(tài)無所謂,只要能往前走、走得快就行了。但是對于人形機(jī)器人,希望走得平穩(wěn)、快,最終要走出優(yōu)雅的步態(tài)。現(xiàn)在很多機(jī)器人走起來嘩嘩響、小碎步、曲著腿,這都不是人們希望看到的,希望像人一樣走得虎虎生威或非常優(yōu)雅,因此行走不僅是一門技術(shù),還是一門藝術(shù)。至于達(dá)到藝術(shù)級別的時間點,可能還需要至少一兩年的時間去做準(zhǔn)備。
②在解決完運動控制算法和本體后,在通用AI 部分,希望機(jī)器人不僅有很好的軀體,還需要有足夠有趣的靈魂。這一部分可能是機(jī)器人行業(yè)后面非常大的一個坑,可以類比以前的個人計算機(jī)(PC)時代:PC 時代很多廠商在做電腦硬件的時候,微軟做了軟件平臺。所以對于通用機(jī)器人,不僅要關(guān)注到本體,可能還會有一家巨型公司成為未來的微軟,不管誰家的機(jī)器人,搭載它的智能之后,會立即變得具有靈魂。
最近,趙同陽和一些做大模型的公司交流。大模型公司正在經(jīng)歷“百模大戰(zhàn)”,技術(shù)發(fā)展得令人驚訝,但是很多公司在做大而全的技術(shù)——無所不知,像百科全書。機(jī)器人需要成為一個萬能的上帝嗎?不一定。但是,現(xiàn)在很多大模型的服務(wù)器里可能就住著一個萬能的上帝——無論你問什么樣的問題,他的回答都十分全面,但是這也造成了比較雷同。所以希望今后隨著大模型的發(fā)展,每個機(jī)器人都有各自的性格,是“有趣的靈魂”。
(本文來源于《EEPW》202409)
評論