基于三角測量與稠密化稀疏點(diǎn)的深度估計(jì) (ECCV2020)
論文題目:DELTAS: Depth Estimation by Learning Triangulation And densification of Sparse points (ECCV2020)
數(shù)據(jù)集和預(yù)訓(xùn)練模型下載地址:在公眾號「計(jì)算機(jī)視覺工坊」,后臺回復(fù)「DELTAS」,即可直接下載。
一、摘要
多視圖立體匹配(Multi-view Stereo)是一種主動式深度探測與單目深度估計(jì)實(shí)用化的權(quán)衡方法?;诖鷥r(jià)體的方法利用3D卷積網(wǎng)絡(luò)來提高M(jìn)VS系統(tǒng)的精度。然而這種方法的計(jì)算開銷很大,很難用于實(shí)際應(yīng)用。與構(gòu)建代價(jià)體的方法不同,本文提出一種高效的深度估計(jì)方法。具體地,首先進(jìn)行特征點(diǎn)提取與描述子計(jì)算;然后進(jìn)行特征點(diǎn)匹配與特征點(diǎn)的三角化;最后通過CNN來對稀疏深度圖進(jìn)行稠密化。上述三個(gè)步驟的操作通過一個(gè)端到端的網(wǎng)絡(luò)框架實(shí)現(xiàn),在網(wǎng)絡(luò)模型訓(xùn)練中除了深度圖的監(jiān)督約束外,還加入了中間2D圖像和3D幾何的監(jiān)督。實(shí)驗(yàn)結(jié)果證明:文章提出的方法在不同場景下能夠以更低的計(jì)算開銷來實(shí)現(xiàn)更精確的深度估計(jì)。
二、相關(guān)工作
2.1 特征點(diǎn)檢測與描述
基于稀疏特征點(diǎn)的方法是SLAM或VIO技術(shù)的標(biāo)準(zhǔn),因?yàn)樗麄兯俣瓤?、精度高?!跋葯z測再描述”是最常見的稀疏特征提取方法,具體地,首先檢測特征點(diǎn),然后對該特征點(diǎn)周圍的塊進(jìn)行描述。描述子封裝了更高級別的信息,這些信息被低級別的關(guān)鍵點(diǎn)所忽略。在深度學(xué)習(xí)之前,SIFT和ORB特征點(diǎn)被廣泛用于低級別視覺任務(wù)的特征匹配描述子。而隨著深度學(xué)習(xí)的出現(xiàn),在很多的應(yīng)用中取代了這些手工設(shè)計(jì)的特征。近年來,出現(xiàn)了SuperPoint、LIFT和GIFT等相關(guān)工作。
2.2 三角測量
三角測量是指,通過在兩處觀察同一點(diǎn)的夾角,確定該點(diǎn)的距離。三角測量最早由高斯提出并應(yīng)用于測量學(xué)中,他在天文學(xué)、地理學(xué)測量中都有應(yīng)用。在本文中,主要用三角化來估計(jì)像素點(diǎn)的距離。Samsung 人工智能研究院的研究員于2019年提出了用于多視圖位姿估計(jì)的可學(xué)習(xí)的三角測量方法[4]??蓪W(xué)習(xí)的三角化模塊可以集成到端到端學(xué)習(xí)的網(wǎng)絡(luò)中。
2.3 Sparse-to-Dense Depth Estimation
由于深度傳感器探測范圍的限制,Sparse-to-Dense的深度估計(jì)方法成為輔助主動深度傳感器的一種方式,而且還具有難以檢測區(qū)域(比如黑暗和反射物體)深度空洞填補(bǔ)的作用。最早的工作是由MIT的研究人員Fangchang Ma等人提出[2]:《Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image》該文章引入了一種新的深度預(yù)測方法,用于從RGB圖像和稀疏深度圖中預(yù)測稠密深度圖,此方法適用于多傳感器融合和基于特征點(diǎn)方式的SLAM。
三、方法
如圖1所示,以一幅目標(biāo)圖像和兩幅輔助圖像為例進(jìn)行方法步驟的說明。本文方法大致可以分為三個(gè)步驟。第一步,首先利用類似于SuperPoint的網(wǎng)絡(luò)進(jìn)行目標(biāo)圖像的特征點(diǎn)提取與描述子計(jì)算,同時(shí)也為輔助圖像進(jìn)行描述子計(jì)算。第二步,根據(jù)相對位姿(對極幾何)的關(guān)系確定目標(biāo)圖像特征點(diǎn)在輔助圖像的空間范圍。然后在搜索空間中采樣描述子,并與目標(biāo)圖像特征點(diǎn)的描述子進(jìn)行匹配。然后利用SVD奇異值分解的方法進(jìn)行特征點(diǎn)的三角化,最后根據(jù)輸出的3D點(diǎn)創(chuàng)建稀疏深度圖。最后一步,稀疏深度圖編碼器輸出的特征圖與RGB圖像編碼器輸出的特征圖用于生成最后的稠密深度圖。
3.1 特征點(diǎn)檢測與描述
如圖2所示,本文使用類似于SuperPoint的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征點(diǎn)檢測與描述子計(jì)算。該網(wǎng)絡(luò)模型有一個(gè)圖像編碼器用于提取圖像特征,并且減小圖像維度。提取的特征送入后續(xù)的兩個(gè)特征任務(wù)的****中:用于特征點(diǎn)檢測與特征點(diǎn)描述子計(jì)算。原始版本的SuperPoint用于高速視頻幀的姿態(tài)估計(jì),所以圖像編碼器使用的是淺層的VGG網(wǎng)絡(luò)。但是SuperPoint淺層的骨干網(wǎng)絡(luò)并不完全適合于本文的深度估計(jì)任務(wù)。因此出于權(quán)衡效率和性能的考量,作者使用了ResNet-50編碼器替換了原來的骨干網(wǎng)絡(luò)。
3.2 特征點(diǎn)匹配與三角化
3.2.1 特征點(diǎn)匹配
上述步驟進(jìn)行了目標(biāo)圖像的特征點(diǎn)檢測與所有視圖的描述子計(jì)算。一種直接的特征點(diǎn)匹配策略是:將目標(biāo)圖像特征點(diǎn)的描述子與輔助圖像上所有可能的位置進(jìn)行匹配對應(yīng)。然而這種策略因?yàn)橛?jì)算量過大而不能采用。考慮到匹配點(diǎn)的對應(yīng)滿足對極幾何的關(guān)系,所以我們只在輔助圖像的極線上進(jìn)行搜索。如圖3所示,在理想情況下匹配點(diǎn)會位于極線上。然而實(shí)際情況中由于相機(jī)位姿存在偏差等因素,我們在極限搜索時(shí)會加上一個(gè)小的偏置??紤]到極線延伸范圍為-∞到+∞,我們將極線范圍限制在可行的深度探測范圍內(nèi)(如右圖所示)。對于每一幅輔助圖像,目標(biāo)圖像特征點(diǎn)的描述子沿著極線方向與描述子進(jìn)行卷積,可得互相關(guān)圖:
3.2.2 特征點(diǎn)三角化
3.3 Sparse-to-Dense Depth Estimation
特征點(diǎn)檢測網(wǎng)絡(luò)提供了特征點(diǎn)的2D坐標(biāo),三角化的z坐標(biāo)提供了深度值。我們可以將稀疏點(diǎn)轉(zhuǎn)化為與彩色圖像相同分辨率的稀疏深度圖。網(wǎng)絡(luò)模型的梯度可以從稀疏深度圖回傳至3D關(guān)鍵點(diǎn),再回傳至輸入圖像。我們將稀疏深度圖通過一個(gè)編碼器獲得深度圖特征(該編碼器為一個(gè)層數(shù)較淺的RGB圖像編碼器)。具體地,編碼器使用的是ResNet-50,其中每層的通道寬度為圖像編碼器的1/4。將稀疏深度圖的特征和RGB彩色圖的特征聯(lián)結(jié)起來。如圖4所示,本模塊共有4個(gè)尺度的深度圖輸出。模塊中還用到了空間金字塔池化模塊,以獲得不同感受野下的特征。
四、實(shí)驗(yàn)
4.1 特征點(diǎn)與描述子質(zhì)量
表1展示了檢測子與描述子的性能評測。其中MLE和可重復(fù)性為檢測子的評判指標(biāo),MScore為描述子評判指標(biāo)。旋轉(zhuǎn)5°和平移5°為綜合考量指標(biāo)。
4.2 深度估計(jì)性能對比
在不同場景和不同數(shù)據(jù)集的評測中,采用了相同的超參數(shù):將檢測的特征點(diǎn)數(shù)固定為512,采樣的描述子長度為100,檢測子的閾值設(shè)為5e-4。同時(shí)為確保提取的特征點(diǎn)呈現(xiàn)均勻分布并避免聚類,將NMS的參數(shù)設(shè)定為9。圖2展示了在ScanNet數(shù)據(jù)集上深度估計(jì)的預(yù)測精度。
參考文獻(xiàn)
1.Sinha A, Murez Z, Bartolozzi J, et al. Deltas: Depth estimation by learning triangulation and densification of sparse points[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020
2.Ma F, Karaman S. Sparse-to-dense: Depth prediction from sparse depth samples and a single image[C]//2018 IEEE international conference on robotics and automation (ICRA). IEEE, 2018: 4796-4803.
3.DeTone D, Malisiewicz T, Rabinovich A. Superpoint: Self-supervised interest point detection and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2018: 224-236.
4.Iskakov K, Burkov E, Lempitsky V, et al. Learnable triangulation of human pose[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 7718-7727.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。