CVPR2023|Gated Stereo:如何利用多視角和TOF強(qiáng)度線索進(jìn)行深度估計
論文題目:Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues
作者:Stefanie Walz;Mario Bijelic;Andrea Ramazzina;Amanpreet Walia;Fahim Mannan等人
作者機(jī)構(gòu):Mercedes-Benz(梅賽德斯-奔馳);Google Inc(普林斯頓大學(xué));Algolux(一家全球公認(rèn)的計算機(jī)視覺公司)
論文鏈接:https://arxiv.org/pdf/2305.12955.pdf
項目代碼:https://github.com/princeton-computational-imaging/GatedStereo
項目主頁:https://light.princeton.edu/publication/gatedstereo/
1 前言Gated Stereo是一種高分辨率和長距離深度估計技術(shù),可在活動門控立體圖像上運(yùn)行。使用主動和高動態(tài)范圍的被動捕捉,Gated Stereo利用多視角線索以及來自主動門控的飛行時間強(qiáng)度線索。為此,作者提出了一種具有單眼和立體深度預(yù)測分支的深度估計方法,在最終融合階段中將它們結(jié)合起來。
本文提出了一種名為Gated Stereo的高分辨率和遠(yuǎn)距離深度估計技術(shù),其基于活動門控立體圖像進(jìn)行運(yùn)算。Gated Stereo通過利用多視角線索和來自活動門控的飛行時間強(qiáng)度線索,以及活動捕獲和高動態(tài)范圍的被動捕獲,實(shí)現(xiàn)了立體深度信息的高效估計。為了實(shí)現(xiàn)這個目的,作者提出了一種具有單目和立體深度預(yù)測分支的深度估計方法,在最終的融合階段組合這兩個分支。每個塊都通過監(jiān)督和門控自監(jiān)督損失的組合進(jìn)行監(jiān)督學(xué)習(xí)。為了便于訓(xùn)練和驗證,作者獲取了一組用于汽車場景的長距離同步門控立體數(shù)據(jù)集。研究發(fā)現(xiàn),在距離160米以內(nèi)的范圍內(nèi),與最佳RGB立體方法相比,該方法的平均絕對誤差(MAE)提高了50%以上,與現(xiàn)有的單目門控方法相比,MAE提高了74%。
具體來說,作者做出了以下貢獻(xiàn):
- 作者提出了一種新穎的深度估計方法,使用基于多視角和飛行時間深度線索的門控密集深度圖。
- 作者引入了一個深度估計網(wǎng)絡(luò),其中包含兩個不同的深度估計分支,一個單目分支和一個立體分支,分別使用主動和被動測量,并采用半監(jiān)督訓(xùn)練方案來訓(xùn)練估計器。
- 作者構(gòu)建了一個原型車來捕捉測試和訓(xùn)練數(shù)據(jù),從而使作者能夠在遠(yuǎn)距離汽車場景中評估該方法,在這些場景中,作者將MAE誤差降低了50%,優(yōu)于下一個最佳的RGB立體方法,并將其與現(xiàn)有的單目門控方法相比,對于距離最高達(dá)160米的情況,誤差降低了74%。
本文介紹了通過不同的傳感器技術(shù)實(shí)現(xiàn)深度估計的方法,其中包括時飛傳感器、單目/雙目相機(jī)、LiDAR、閘門相機(jī)等。時飛傳感器通過測量****到場景中并返回檢測器的光的往返時間來獲取深度信息。單目/雙目相機(jī)的深度估計基于對圖像的分析和處理。LiDAR通過激光****到場景中并返回激光束,通過測量回程時間和激光束掃描夾角來獲取深度信息。閘門相機(jī)使用短時間光閘限制可視景深。雖然每種傳感器技術(shù)都有其自身的優(yōu)劣勢,但它們都是在特定環(huán)境下實(shí)現(xiàn)深度估計的有效方式。
時飛傳感器:
時飛傳感器通過測量****到場景中的光的往返時間來獲取深度信息,常用的包括相關(guān)時飛相機(jī)、脈沖時飛傳感器和帶寬度深度測量的閘門光照,其中相關(guān)時飛傳感器通過波照射到場景中,根據(jù)****和接收光之間的相位差來估計深度,具有高精度和高空間分辨率的優(yōu)點(diǎn),但對環(huán)境光的敏感性較強(qiáng),限制了其在室外場景中應(yīng)用;而脈沖時飛傳感器則通過直接測量從一個點(diǎn)反射回來的光的往返時間來獲取深度信息,但局限于動態(tài)場景下的低空間分辨率并且容易受到惡劣天氣影響。
單目/雙目相機(jī):
單目/雙目相機(jī)常用的深度估計方法包括單張圖像估計、稀疏LiDAR點(diǎn)云引導(dǎo)的單張圖像估計、雙目圖像估計和基于雙目相機(jī)和稀疏LiDAR的深度估計。單目深度估計通常適用于成本較低的嵌入式系統(tǒng),具有的空間分辨率限制可以通過相機(jī)的高幀率來抵消,但缺點(diǎn)是無法解決深度估計尺度的歧義問題。雙目深度估計可以通過多視點(diǎn)估計解決尺度歧義問題,但需要獲取可靠的地面真實(shí)深度。對于深度估計,現(xiàn)有的方法主要采用有監(jiān)督和無監(jiān)督兩種學(xué)習(xí)方法,有監(jiān)督深度估計方法通常依靠ToF數(shù)據(jù)或多視圖數(shù)據(jù)進(jìn)行監(jiān)督,但相應(yīng)的密集地面真實(shí)深度數(shù)據(jù)比較難以獲得;無監(jiān)督深度估計方法通常利用多視圖幾何來進(jìn)行自我監(jiān)督學(xué)習(xí)。
深度閘門相機(jī):
閘門相機(jī)通過控制光閘時間,只提取一定深度范圍內(nèi)的光來估計深度,常用的方法包括求解分析解、學(xué)習(xí)貝葉斯方法和深度神經(jīng)網(wǎng)絡(luò)方法。
3 Gated Stereo Imaging - 門控立體成像本文介紹了一種名為門控立體成像的技術(shù),該技術(shù)利用兩個門控相機(jī)進(jìn)行同步工作,通過單個光源照明的方式捕獲三個同步的門控和被動切片。門控技術(shù)可以在2D圖像中集成隱含的深度信息,同時可以通過校準(zhǔn)消暗電流來調(diào)整強(qiáng)度計數(shù),與環(huán)境光或其他光源的影響相比。通過對兩個未被調(diào)制的被動暴露進(jìn)行HDR獲取,可以利用同一相機(jī)設(shè)置從被動立體強(qiáng)度線索中恢復(fù)深度,該系統(tǒng)每秒捕獲120個圖像,實(shí)現(xiàn)了每秒24個圖像的更新,其更新速率約為最新商業(yè)掃描LiDAR系統(tǒng)的兩倍。
4 Depth from Gated Stereo - 由門控視覺深度估計在本文中,作者提出了一種利用門控圖像的主動和被動多視圖線索進(jìn)行深度估計的方法。具體而言,作者引入了一個聯(lián)合立體和單目網(wǎng)絡(luò),使用幾個適用于門控立體數(shù)據(jù)的一致性損失對此網(wǎng)絡(luò)進(jìn)行半監(jiān)督。接下來,作者首先描述所提出的網(wǎng)絡(luò)架構(gòu),然后再描述半監(jiān)督方案。
4.1 Joint Stereo-Mono Depth Network - 聯(lián)合立體-單目深度網(wǎng)絡(luò)本文提出了一個聯(lián)合立體-單目深度網(wǎng)絡(luò),該網(wǎng)絡(luò)具有單目和立體分支以及最終的融合網(wǎng)絡(luò),將這些分支的輸出組合起來生成最終的深度圖。單目分支使用DPT架構(gòu)輸出絕對深度,而立體分支使用RAFT-Stereo和HRFormer網(wǎng)絡(luò)提取高分辨率特征匹配視差。最終的聯(lián)合深度圖通過輕量級的ResUNet網(wǎng)絡(luò)進(jìn)行融合,旨在解決單目深度估計中的深度量化和立體深度估計中的遮擋等問題。
4.2 Depth and Photometric Consistency -深度和光度一致性作者提出了一種用于自監(jiān)督深度估計的新型系統(tǒng),基于閘門光纖雷達(dá)技術(shù),通過稀疏監(jiān)督和自監(jiān)督一致性損失來指導(dǎo)深度估計。其中,左右再投影一致性損失是指在已知視差的情況下,通過將左側(cè)圖像到右側(cè)圖像的映射來驗證左右兩側(cè)圖像的光學(xué)一致性,其中采用了基于結(jié)構(gòu)相似度度量和L1范數(shù)的相似性損失。單目分支和立體分支分別用于對單個圖像和立體圖像進(jìn)行深度估計。融合損失用于將單目和立體的深度估計結(jié)果合并。還有其他損失函數(shù),如環(huán)形構(gòu)建、邊緣保留平滑以及點(diǎn)云監(jiān)督損失。這些損失函數(shù)都通過調(diào)高和縮小具體系數(shù)影響整體訓(xùn)練。
4.3 Implementation Details - 實(shí)施細(xì)節(jié)作者首先分別使用文中介紹的損失函數(shù)獨(dú)立地優(yōu)化單目和立體網(wǎng)絡(luò)。單目和立體網(wǎng)絡(luò)都使用相同的協(xié)議進(jìn)行訓(xùn)練,使用ADAMW算法,其中β1 = 0.9,β2 = 0.999,學(xué)習(xí)率為 ,權(quán)重衰減為。最后,使用文中描述的損失函數(shù)訓(xùn)練融合網(wǎng)絡(luò),學(xué)習(xí)率為3 × ,訓(xùn)練5個epochs。使用η=0.05生成方程式4中提到的遮擋掩碼。對于閘門一致性掩碼,將γ設(shè)置為0.98,θ設(shè)置為0.04。所有模型的輸入/輸出分辨率均為1024×512。
5 數(shù)據(jù)集作者描述了捕獲用于訓(xùn)練和測試的長距離深度數(shù)據(jù)集。該數(shù)據(jù)集是在德國南部進(jìn)行的超過一千公里的行駛數(shù)據(jù)收集活動期間獲取的。作者為測試車輛配備了一個長距離的激光雷達(dá)系統(tǒng)(Velodyne VLS128),具有高達(dá)200米的范圍,以及一臺汽車RGB立體攝像頭(On-Semi AR0230傳感器)和一套帶同步的NIR閘門立體攝像頭設(shè)置(BrightWayVision)。所有傳感器都安裝在可攜帶的傳感器立方體中,除了激光雷達(dá)傳感器之外。RGB立體相機(jī)具有1920x1080像素的分辨率,并以30 Hz運(yùn)行,捕獲12位HDR圖像。閘門相機(jī)以120 Hz幀率提供分辨率為1280x720的10位圖像,我們將其分為三個切片和兩個類似HDR的額外環(huán)境捕捉(沒有主動照明)。作者在前拉鉤上安裝了兩個垂直腔面****激光器(VCSEL)模塊作為主動照明。激光以每個500W的峰值功率,808nm的波長和240-370ns的激光脈沖持續(xù)時間洪水般照亮場景。由于眼部安全法規(guī)的限制,最大峰值功率受到限制。安裝的參考激光雷達(dá)系統(tǒng)以10 Hz運(yùn)行,并產(chǎn)生128條線。所有傳感器都經(jīng)過校準(zhǔn)和時間同步,該數(shù)據(jù)集包含在白天、夜間和不同天氣條件下的107348個樣本。經(jīng)過場景多樣性的子選擇后,我們將數(shù)據(jù)集分為54320個樣本進(jìn)行訓(xùn)練,728個樣本進(jìn)行驗證和2463個樣本進(jìn)行測試。
6 評估本文提出了一個用于夜間、白天深度估計的新方法,并在實(shí)驗證明了它的有效性。該方法與現(xiàn)有門控方法、單目RGB方法、立體RGB方法和單目+激光雷達(dá)方法進(jìn)行了比較。實(shí)驗結(jié)果表明,所提出的方法在日間和夜間條件下均取得了更好的效果,具有更高的長程深度預(yù)測準(zhǔn)確率和更好的細(xì)節(jié)表現(xiàn)。對于所提出方法的貢獻(xiàn)進(jìn)行的消融實(shí)驗表明,采用了不同的組成部分可以有效地降低MAE誤差。具體地,單目分支、無源圖像和有源片段的串聯(lián)、環(huán)境感知一致性和提議的骨干網(wǎng)絡(luò)、門控一致性損失和左右視圖和燈光的變形損失以及單目和立體混合輸出的融合階段都可以降低MAE誤差。
7 總結(jié)本文提出了一種新的方法Gated Stereo,使用門控立體對預(yù)測稠密深度。通過利用主動和被動圖像,該方法可以提取深度線索。對于立體線索和單眼門控提示的不足,該方案預(yù)測立體和每個攝像機(jī)的單眼深度,并將其融合以獲得單個高質(zhì)量的深度圖。該方法經(jīng)過半監(jiān)督訓(xùn)練和驗證,并在一個新的遠(yuǎn)程汽車數(shù)據(jù)集上得到了良好的效果,在立體RGB圖像上實(shí)現(xiàn)的平均絕對深度誤差比下一個最佳方法優(yōu)50%,比下一個最佳現(xiàn)有門控方法優(yōu)74%。未來該方法可以用于解決 LiDAR 系統(tǒng)無法解決的新穎三維視覺任務(wù)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。