“3D 空間計(jì)算”助力機(jī)器人“慧眼識界”
3D空間計(jì)算是機(jī)器人的基本要素,是智能識別、自主決策、精確控制的基礎(chǔ)。
本文引用地址:http://cafeforensic.com/article/202412/465716.htm3D空間計(jì)算的關(guān)鍵技術(shù)是“3D 視覺+AI”。只有依靠AI 的3D 視覺和強(qiáng)大的算力,才可以支撐開發(fā)更智能、性價(jià)比更高的新一代機(jī)器人應(yīng)用。
2024 年4 月,芯明副總裁周凡博士在上?!?024中國人形機(jī)器人生態(tài)大會(huì)”上,介紹了該公司在3D 空間計(jì)算方面的技術(shù)及解決方案。
1 3D空間技術(shù)——人機(jī)交互的新起點(diǎn)
隨著各種芯片、AI 技術(shù)的成熟和落地,人機(jī)交互的方式也在發(fā)生變革,從過去PC 時(shí)代到現(xiàn)在的移動(dòng)時(shí)代,操控方式從鍵盤鼠標(biāo),到觸摸屏、語音、手勢識別等,這些看似小小的改變已為我們的生活方式帶來了翻天覆地的變化。
現(xiàn)在我們正處于空間智能的時(shí)代——是對我們生活方式的又一場大變革的起點(diǎn)。因?yàn)?D 空間計(jì)算能夠?qū)崿F(xiàn)真實(shí)物理世界和虛擬世界的融合,包括智能設(shè)備與真實(shí)世界之間的互動(dòng)。
空間計(jì)算概念大概15~20 年前就已經(jīng)有了,專注人和機(jī)器的交互,通過機(jī)器操縱真實(shí)世界的標(biāo)的物。為了達(dá)到這個(gè)目的,芯明深耕3D 空間計(jì)算技術(shù)。
3D 空間計(jì)算技術(shù)可用于很多行業(yè),包括人形機(jī)器人/自主移動(dòng)機(jī)器人在內(nèi)的泛機(jī)器人、自動(dòng)駕駛、智能制造以及人們的娛樂社交等,在未來幾年會(huì)帶來翻天覆地的變化。
2 3D空間計(jì)算的痛點(diǎn)及解決方案
3D空間計(jì)算的基礎(chǔ)是機(jī)器視覺。因?yàn)闄C(jī)器人/ 人形機(jī)器人要能去理解真實(shí)的物理世界,就需要機(jī)器視覺。機(jī)器視覺技術(shù)已越來越成熟,但還有三個(gè)痛點(diǎn):首先,2D視覺已經(jīng)無法滿足越來越復(fù)雜的終端需求,很多行業(yè)需要從2D升級到3D。其次,升級到3D 以后,傳統(tǒng)的做法是用性能較強(qiáng)的通用芯片或FPGA 去運(yùn)行軟件化的3D 算法。這種方法的優(yōu)點(diǎn)是靈活性高,但也存在一些缺板:①延時(shí)、功耗、系統(tǒng)成本較大。②對于一些較高的性能需求,諸如低延時(shí)、高分辨率/ 高幀率,用常規(guī)的軟件算法或FPGA 很難實(shí)現(xiàn)。③隨著很多應(yīng)用對真實(shí)世界的感知越來越復(fù)雜,這些設(shè)備加在一起的價(jià)格比較昂貴。第三個(gè)痛點(diǎn)是適用于復(fù)雜場景的3D 感知設(shè)備價(jià)格昂貴,傳統(tǒng)的多傳感器融合會(huì)大幅增加系統(tǒng)成本及復(fù)雜度。
因此行業(yè)的共識是:必須要完成2D到3D的技術(shù)升級,最好的方法是3D算法芯片化,因?yàn)橹挥袕淖畹讓拥男酒リP(guān)注需求和進(jìn)行創(chuàng)新,才能更好地去服務(wù)于應(yīng)用和提高產(chǎn)品力。而且芯片的集成度要高,最好做成單芯片方案,把系統(tǒng)/ 機(jī)器人的需求全部在設(shè)計(jì)芯片時(shí)就開始進(jìn)行考量,這樣整體的解決方案才能有競爭力。
3 人形機(jī)器人的解決方案
對于人形機(jī)器人,芯明的3D 空間計(jì)算單芯片解決方案主要是從兩個(gè)維度來賦能: ①幫助實(shí)現(xiàn)具身智能;②幫助實(shí)現(xiàn)更多的精細(xì)操作。
● 具身智能
對于具身智能,芯明的解決方案主要從兩個(gè)方面來幫助人形機(jī)器人去更好地實(shí)現(xiàn)。
首先,芯明專注空間智能技術(shù)的創(chuàng)新和研發(fā),能夠提供高精度實(shí)時(shí)的空間計(jì)算,幫助機(jī)器人更好地去感知周圍的真實(shí)世界。
在傳統(tǒng)的語音、文本和圖像等基本模態(tài)基礎(chǔ)之上,芯明可以幫助加入3D 點(diǎn)云的模態(tài),從而用增強(qiáng)多模態(tài)的關(guān)鍵技術(shù),幫助人形機(jī)器人提高智能水平和邏輯自洽,以提高機(jī)器人對物理世界的理解和判斷,實(shí)現(xiàn)更好的認(rèn)知和互動(dòng)。
現(xiàn)在國內(nèi)外研究表明,3D 空間多模態(tài)大模型實(shí)現(xiàn)的難點(diǎn)是需要海量數(shù)據(jù)用作訓(xùn)練,對算力和訓(xùn)練數(shù)據(jù)要求非常高。例如,很多機(jī)器人,包括訓(xùn)練疊衣服、做飯、倒咖啡等,最缺乏的是一個(gè)可以用作訓(xùn)練的數(shù)據(jù)庫。芯明擁有三維空間多模態(tài)大模型數(shù)據(jù)庫,借助三維空間數(shù)據(jù),大幅降低多模態(tài)大模型對訓(xùn)練數(shù)據(jù)的海量要求,大幅提高訓(xùn)練結(jié)果的準(zhǔn)確度,幫助大模型的發(fā)展擺脫對算力和數(shù)據(jù)量的過度依賴,幫助機(jī)器人針對特定應(yīng)用來提高訓(xùn)練效果和準(zhǔn)確度。
芯明能夠提供不同的視覺子系統(tǒng)解決方案,例如有的安裝在頭部,可做前視和環(huán)視,其芯片和模組有很強(qiáng)的邊緣計(jì)算能力,幀速率、分辨率很高,以幫助機(jī)器人在頭部對周圍的物理世界做3D 感知和理解。
● 更精細(xì)的操作
為了幫助機(jī)器人做更精細(xì)的操作,芯明在機(jī)器人的手腕、指尖也有相應(yīng)的解決方案。例如在指尖,可以提供一個(gè)定制化的超短基線的模組。芯明的空間計(jì)算技術(shù)已應(yīng)用于牙科的口掃儀(牙醫(yī)用來掃牙、做牙模等)。把該技術(shù)經(jīng)過優(yōu)化后,可應(yīng)用到機(jī)器人的指尖,在幫助機(jī)器人做精細(xì)操作的同時(shí),還能做很精確的物理距離識別和判斷。
總之,針對機(jī)器人的頭、手、腰和手腕,芯明有全套的視覺解決方案,幫助機(jī)器人實(shí)現(xiàn)更精確的操作。
(本文來源于《EEPW》202412)
評論