在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)的單眼3D重建
本文展示了在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)單眼3D重建的系統(tǒng),稱為Mobile3DRecon。該系統(tǒng)使用嵌入式單眼相機(jī),在后端提供了在線網(wǎng)格生成功能,并在前端提供了實(shí)時(shí)6DoF姿勢(shì)跟蹤,以供用戶在手機(jī)上實(shí)現(xiàn)具有真實(shí)感的AR效果。
與大多數(shù)現(xiàn)有的僅使用基于點(diǎn)云的3D模型在線生成技術(shù)或離線的表面網(wǎng)格生成技術(shù)不同,本文提供了一種全新的在線增量網(wǎng)格生成方法來(lái)實(shí)現(xiàn)快速的在線密集表面網(wǎng)格重建,以滿足實(shí)時(shí)的AR應(yīng)用需求。
對(duì)于6DoF跟蹤的每個(gè)關(guān)鍵幀,本文使用多視圖半全局匹配(SGM)的方法進(jìn)行的單眼深度估計(jì),然后進(jìn)行深度細(xì)化處理。生成模塊將每個(gè)估計(jì)的關(guān)鍵幀深度圖融合到在線密集表面網(wǎng)格上,這對(duì)于實(shí)現(xiàn)逼真的AR效果(例如碰撞和遮擋等)。
本文在兩個(gè)中距離移動(dòng)平臺(tái)上驗(yàn)證了實(shí)時(shí)重建的結(jié)果,通過(guò)定量和定性評(píng)估的實(shí)驗(yàn)證明了所提出的單眼3D重建系統(tǒng)的有效性。該系統(tǒng)可以處理虛擬物體與真實(shí)物體之間的遮擋和碰撞場(chǎng)景以實(shí)現(xiàn)逼真的AR效果。
一、背景與貢獻(xiàn)
本文提出了以中多視圖關(guān)鍵幀深度估計(jì)方法,該方法即使在具有一定姿態(tài)誤差的無(wú)紋理區(qū)域中也可以魯棒地估計(jì)密集深度,消除由姿勢(shì)誤差或無(wú)紋理區(qū)域引起的不可靠深度,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化了噪聲深度。
本文提出了以中有效的增量網(wǎng)格生成方法,該方法可以融合估計(jì)的關(guān)鍵幀深度圖以在線重建場(chǎng)景的表面網(wǎng)格,并逐步更新局部網(wǎng)格三角。這種增量網(wǎng)格方法不僅可以為前端的AR效果提供在線密集的3D表面重建,還可以確保將網(wǎng)格生成在后端CPU模塊上的實(shí)時(shí)性能。這對(duì)于以前的在線3D重建系統(tǒng)來(lái)說(shuō)是有難度的。
本文提出了帶有單眼相機(jī)的實(shí)時(shí)密集表面網(wǎng)格重建管線,在手機(jī)上實(shí)現(xiàn)了單眼關(guān)鍵幀深度估計(jì)和增量網(wǎng)格更新的執(zhí)行速度不超過(guò)后端的125ms/關(guān)鍵幀,在跟蹤前端6DoF上快速到足以超過(guò)每秒25幀(FPS)。
二、算法流程
圖1—系統(tǒng)簡(jiǎn)圖
整個(gè)系統(tǒng)的處理圖如圖1所示,當(dāng)用戶使用手機(jī)上的單眼相機(jī)導(dǎo)航到他的環(huán)境時(shí),本文提供的管道會(huì)使用基于關(guān)鍵幀的視覺(jué)慣性SLAM系統(tǒng)跟蹤手機(jī)的6DoF姿勢(shì),該系統(tǒng)跟蹤前端的6DoF的同時(shí),也可以保證關(guān)鍵幀后端具有全局優(yōu)化模塊,以優(yōu)化所有關(guān)鍵幀的姿勢(shì),并將其反饋給前端跟蹤。本文在管道中使用了SenseAR SLAM進(jìn)行姿勢(shì)跟蹤,并且任何基于關(guān)鍵幀的VIO或SLAM系統(tǒng)(例如谷歌的ARCore)目前都是適用的。
在前端正常初始化6DoF姿勢(shì)跟蹤之后,對(duì)于具有全局優(yōu)化姿勢(shì)的關(guān)鍵幀池中的最新傳入關(guān)鍵幀,其密集深度圖是通過(guò)多視圖SGM在線估計(jì)的,其中先前的關(guān)鍵幀的一部分會(huì)被作為參考幀。卷積神經(jīng)網(wǎng)絡(luò)和多視圖SGM被用來(lái)細(xì)化深度噪聲,然后通過(guò)融合細(xì)化的關(guān)鍵幀深度圖以生成周圍環(huán)境的密集表面網(wǎng)格。這里的管道是用來(lái)執(zhí)行增量在線網(wǎng)格生成,這更適合于手機(jī)平臺(tái)上AR應(yīng)用程序?qū)?shí)時(shí)3D重建的要求,深度估計(jì)和增量網(wǎng)格劃分都作為后端模塊進(jìn)行。隨著密集網(wǎng)格逐漸在后端被重建出來(lái),高級(jí)別的AR應(yīng)用程序可以使用這種實(shí)時(shí)的密集網(wǎng)格和6DoF SLAM的姿勢(shì)為前端用戶提供逼真的AR效果,比如遮擋和碰撞等。
1.單眼深度估計(jì)
單眼深度估計(jì)首先利用本文提出的多視圖SGM方法進(jìn)行立體匹配,然后基于置信圖對(duì)深度信息進(jìn)行濾波,最后利用深度學(xué)習(xí)細(xì)化深度信息。
立體匹配部分, 本文對(duì)深度空間的逆進(jìn)行均勻采樣,然后利用人口普查變換(CT)作為特征值描述子來(lái)計(jì)算補(bǔ)丁相似度(patch similarity)。這里通過(guò)查找表來(lái)計(jì)算兩個(gè)人口普查位串之間的漢明距離,遍歷每個(gè)帶有標(biāo)簽I的切片的像素,來(lái)計(jì)算立體匹配的成本。之后,會(huì)得到的大小為W * H * L尺寸的成本量,其中W和H是框架的寬度和高度。然后匯總成本量,采用Winner-Take-All的策略獲得初始深度圖。
本文通過(guò)懲罰像素鄰域的深度標(biāo)記變化添加了額外的正則化來(lái)支持平滑度。對(duì)于帶有標(biāo)簽l的圖像像素x,成本的匯總是通過(guò)遞歸計(jì)算相鄰方向的成本來(lái)完成的。
基于置信度的深度濾波利用SGM中的不確定度測(cè)量來(lái)計(jì)算置信度,同時(shí)也考慮了局部深度一致性。
深度信息的細(xì)化是基于深度神經(jīng)網(wǎng)絡(luò)的,這是由一個(gè)兩階段的細(xì)化神經(jīng)網(wǎng)絡(luò)來(lái)組成。第一階段是圖像引導(dǎo)子網(wǎng)絡(luò)CNNG,它將濾波后的深度與相應(yīng)的關(guān)鍵幀上的灰度圖像相結(jié)合得到粗細(xì)化的結(jié)果Dct,其中,灰度圖像充當(dāng)深度優(yōu)化的引導(dǎo),用以提供CNNG的物體邊緣和語(yǔ)義信息的先驗(yàn)。第二階段是殘差U-Net CNNR,它可以進(jìn)一步細(xì)化之前粗細(xì)化后的噪聲結(jié)果得到最終的精細(xì)化深度信息。U-Net結(jié)構(gòu)主要有助于使學(xué)習(xí)過(guò)程更加穩(wěn)定并克服特征退化的問(wèn)題。這里的訓(xùn)練集是采用Demon數(shù)據(jù)集進(jìn)行訓(xùn)練。
2.漸進(jìn)式網(wǎng)格生成
去除動(dòng)態(tài)物體后,利用TSDF對(duì)體素進(jìn)行融合。每一個(gè)估算出來(lái)的深度圖都被集成到TSDF體素上,然后通過(guò)鏈接生成和更新的體素來(lái)重建3D物體,生成漸進(jìn)式網(wǎng)格。
實(shí)時(shí)的網(wǎng)格更新是將漸進(jìn)式移動(dòng)的立方體塊在單個(gè)CPU線程上集成,每一個(gè)關(guān)鍵幀只更新一部分立方體塊。除此之外,本文為每一個(gè)體素定義了一個(gè)狀態(tài)變量,用來(lái)判斷更新,添加,通用和刪除。更新和提取的三角網(wǎng)格只來(lái)自于添加和更新的立方體塊。最后,再利用深度細(xì)化神經(jīng)網(wǎng)絡(luò)來(lái)提高平面網(wǎng)格的質(zhì)量。
三、主要結(jié)果
我們的單眼深度估計(jì)是根據(jù)序列“室內(nèi)樓梯”和“沙發(fā)”的兩個(gè)代表性關(guān)鍵幀得出的:
原關(guān)鍵幀圖像及其兩個(gè)選定的參考關(guān)鍵幀圖像;“室內(nèi)樓梯”參考幀中的兩個(gè)代表性像素及其極線繪制出從前端的6DoF跟蹤來(lái)證明某些相機(jī)姿態(tài)誤差的數(shù)據(jù)。
通過(guò)反投影進(jìn)行的多視圖SGM和相應(yīng)點(diǎn)云的深度估計(jì)結(jié)果。
基于置信度的深度濾波后的結(jié)果及其對(duì)應(yīng)的結(jié)果
在基于DNN的參考及其相應(yīng)的點(diǎn)云之后的最終深度估計(jì)結(jié)果。
OPPO R17 Pro捕獲的四個(gè)實(shí)驗(yàn)序列“室內(nèi)樓梯”,“沙發(fā)”,“桌面”和“內(nèi)閣”的表面網(wǎng)格生成結(jié)果:
a.顯示了每個(gè)序列的一些代表性關(guān)鍵幀。沒(méi)有基于DNN的深度細(xì)化的每個(gè)序列的生成 的全局表面網(wǎng).
c.我們的基于DNN的深度細(xì)化的生成的全局表面網(wǎng)格。
我們報(bào)告了我們的Mobile3DRecon和[11,27,40]的深度和表面網(wǎng)格結(jié)果的RMSE和MAE,這些結(jié)果是由我們的五個(gè)實(shí)驗(yàn)序列(由OPPO R17 Pro捕獲的,ToF深度測(cè)量為GT)進(jìn)行深度評(píng)估的,僅像素在GT和估計(jì)深度圖中都有有效深度的情況下,將參與誤差計(jì)算;對(duì)于通用深度評(píng)估,所有方法和GT中只有具有有效深度相同的像素才參與評(píng)估;
請(qǐng)注意,對(duì)于REMODE,我們僅考慮計(jì)算對(duì)于REMODE,由于深度小于35 cm,我們無(wú)法獲得深度融合結(jié)果;對(duì)于網(wǎng)格評(píng)估,我們使用CloudCompare 2通過(guò)將每種方法的深度融合到GT網(wǎng)格(通過(guò)融合ToF深度)來(lái)比較網(wǎng)格結(jié)果。對(duì)于REMODE,由于深度誤差嚴(yán)重,我們無(wú)法獲得深度融合結(jié)果。
我們?cè)谒凶硬襟E中報(bào)告Mobile3DRecon的詳細(xì)每關(guān)鍵幀時(shí)間消耗(以毫秒為單位),時(shí)間統(tǒng)計(jì)信息在兩個(gè)移動(dòng)平臺(tái)上給出:帶SDM710的OPPO R17 Pro和帶SDM845的MI8。
點(diǎn)擊閱讀原文獲取完整文章下載鏈接,提取碼: pzg5
本文轉(zhuǎn)載自:泡泡機(jī)器人SLAM
標(biāo)題:Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone
作者:Xingbin Yang, Liyang Zhou, Hanqing Jiang, Zhongliang Tang, Yuanbo Wang, Hujun Bao, Member, IEEE, and Guofeng Zhang, Member, IEEE
機(jī)構(gòu):浙江大學(xué);商湯科技
來(lái)源:ISMAR 2020
編譯 : 張海晗
審核:管培育
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
互感器相關(guān)文章:互感器原理
電氣符號(hào)相關(guān)文章:電氣符號(hào)大全
斷路器相關(guān)文章:斷路器原理
高壓真空斷路器相關(guān)文章:高壓真空斷路器原理 電抗器相關(guān)文章:電抗器原理 電化學(xué)工作站相關(guān)文章:電化學(xué)工作站原理 絕緣電阻測(cè)試儀相關(guān)文章:絕緣電阻測(cè)試儀原理 調(diào)壓器相關(guān)文章:調(diào)壓器原理 熔斷器相關(guān)文章:熔斷器原理 漏電斷路器相關(guān)文章:漏電斷路器原理