CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標檢測
參考論文:D4LCN:Learning Depth-Guided Convolutions for Monocular 3D Object Detection(CVPR2020)
論文、代碼地址:在公眾號「計算機視覺工坊」,后臺回復(fù)「D4LCN」,即可直接下載。
參考paddle復(fù)現(xiàn):3D目標檢測(單目)D4LCN論文復(fù)現(xiàn)(https://aistudio.baidu.com/aistudio/projectoverview/public)
Abstract
單目3D目標檢測最大的挑戰(zhàn)在于無法得到精確的深度信息,傳統(tǒng)的二維卷積算法不適合這項任務(wù),因為它不能捕獲局部目標及其尺度信息,而這對三維目標檢測至關(guān)重要.為了更好地表示三維結(jié)構(gòu),現(xiàn)有技術(shù)通常將二維圖像估計的深度圖轉(zhuǎn)換為偽激光雷達表示,然后應(yīng)用現(xiàn)有3D點云的物體檢測算法.因此他們的結(jié)果在很大程度上取決于估計深度圖的精度,從而導(dǎo)致性能不佳.在本文中,作者通過提出一種新的稱為深度引導(dǎo)的局部卷積網(wǎng)絡(luò)(LCN),更改了二維全卷積 (D4LCN),其中的filter及其感受野可以從基于圖像的深度圖中自動學(xué)習(xí),使不同圖像的不同像素具有不同的filter.克服了傳統(tǒng)二維卷積的局限性,縮小了圖像表示與三維點云表示的差距.D4LCN對于最先進的KITTI的相對改進是9.1%,單目3D檢測的SOTA方法.
Introduction
3D目標檢測有許多應(yīng)用,如自動駕駛和機器人技術(shù).LiDAR設(shè)備可以獲得三維點云,從而獲得精確的深度信息.但是,LiDAR高成本和稀疏輸出的特點讓人們希望尋找到更便宜的替代品,這些替代品的其中之一維單目相機.雖然單目相機引起了人們的廣泛關(guān)注,但在很大程度上不能夠解決3D目標檢測問題.實現(xiàn)上述目標的方法通常是分為基于2圖像的方法和基于偽激光雷達點的方法兩種.基于圖像的方法通常利用幾何體約束,包括對象形狀、地平面和關(guān)鍵點.這些約束條件在損失函數(shù)中用不同的項表示,以提高檢測結(jié)果.基于偽激光雷達的圖像深度變換方法是通過模擬激光雷達信號的點云表示.如圖1所示,這兩種方法各有缺點,都導(dǎo)致了性能不理想.
圖1.(a)和(b)分別顯示了監(jiān)督深度估計器DORN和無監(jiān)督單深度生成的偽激光雷達點.綠色框表示groundtruth(GT)3D框.如(b)所示,由于深度不準確而產(chǎn)生的偽激光雷達點與GTbox有較大的偏移量(c)和(d)顯示了我們的方法和偽激光雷達使用粗深度圖的探測結(jié)果.效果在很大程度上取決于估計深度圖的精度,而我們的方法在缺少精確深度圖的情況下可以獲得準確的檢測結(jié)果
基于圖像的方法通常無法獲取有意義的局部對象尺度和結(jié)構(gòu)信息,這主要是由于以下兩個因素,遠近距離的單眼視覺會引起物體尺度的顯著變化.傳統(tǒng)的二維卷積核很難同時處理不同尺度的對象(見圖2).二維卷積的局部鄰域定義在攝像機平面上,其中深度維數(shù)丟失.在這個非度量空間(e像素之間的距離沒有一個明確的物理意義),過濾器無法區(qū)分對象和背景.在這種情況下,汽車區(qū)域和背景區(qū)域?qū)⒈煌葘Υ?
雖然基于偽激光雷達點的方法已經(jīng)取得了一些進展,但它們?nèi)匀淮嬖趦蓚€關(guān)鍵問題,這些方法的性能在很大程度上依賴于估計深度圖的精度(見圖1).從單目圖像中提取的深度圖通常是粗糙的(使用它們估計的點云具有錯誤的坐標),導(dǎo)致不準確的三維預(yù)測.換句話說,深度圖的精度限制了三維目標檢測的性能.偽激光雷達方法不能有效地利用從RGB圖像中提取的高層語義信息,導(dǎo)致大量的虛警,這是因為點云提供了空間信息,卻丟失了語義信息.
為了解決上述問題,我們提出了一種新的卷積網(wǎng)絡(luò)D4LCN,其中卷積核由深度映射生成,并局部應(yīng)用于單個圖像樣本的每個像素和通道,而不是學(xué)習(xí)全局內(nèi)核來應(yīng)用于所有圖像.如圖2所示,D4LCN以深度圖為指導(dǎo),從RGB圖像中學(xué)習(xí)局部動態(tài)深度擴展核,以填補二維和三維表示之間的空白,其中每個核都有自己的擴張率.
圖2.不同卷積方法的比較(a)是傳統(tǒng)的二維卷積,它在每個像素上使用一個卷積核來卷積整個圖像(b)對圖像的不同區(qū)域(切片)應(yīng)用多個固定卷積核.(c)使用深度圖為每個像素生成具有相同接收場的動態(tài)核(d)表示我們的方法,其中濾波器是動態(tài)的,深度圖為每個像素和通道特性圖具有自適應(yīng)接收場.它可以用比(C)更少的參數(shù)更有效地實現(xiàn).
我們的貢獻(1)提出了一種新的三維目標檢測組件D4LCN,其中深度圖指導(dǎo)了單目圖像的動態(tài)深度擴展局部卷積的學(xué)習(xí)(2)設(shè)計了一個基于D4LCN的單級三維物體檢測框架,以更好的學(xué)習(xí)三維特征,以縮小二維卷積和基于三維點云的運算之間的差距(3)大量實驗表明,D4LCN優(yōu)于最先進的單眼3D檢測方法,并在KITTIbenchmark上取得第一名.
網(wǎng)絡(luò)結(jié)構(gòu)
我們的框架由三個關(guān)鍵組件組成:網(wǎng)絡(luò)主干、深度引導(dǎo)濾波模塊和2D-3D head
圖3.單目三維物體檢測框架.首先從RGB圖像中估計出深度圖,并與RGB圖像一起作為輸出兩個分支網(wǎng)絡(luò)的輸入.然后利用深度引導(dǎo)濾波模塊對每個殘差塊的信息進行融合.最后,采用一級非最大抑制探測頭(NMS)進行預(yù)測
損失函數(shù)
比較結(jié)果
我們在kitti數(shù)據(jù)集的官方測試集和兩組驗證集上進行了實驗.表一包括排名前14位的方法,其中我們的方法排名第一.可以觀察到:
(1)我們的方法比第二個最好的競爭對手三維汽車檢測的提高9.1%
(2)大多數(shù)競爭對手在COCO/KITTI上預(yù)先訓(xùn)練的檢測器(例如更快的rcnn)或采用多階段訓(xùn)練來獲得更好的2D檢測和穩(wěn)定的3D結(jié)果.而我們的模型是使用標準的ImageNet預(yù)訓(xùn)練模型進行端到端訓(xùn)練的.然而,我們?nèi)匀蝗〉昧俗顑?yōu)異的三維檢測結(jié)果,驗證了我們的D4LCN學(xué)習(xí)三維結(jié)構(gòu)的有效性.
表1.KITTI 3D目標檢測數(shù)據(jù)集的比較結(jié)果.
因為人是非剛體.其形狀多變,深度信息難以準確估計.因此,對行人和騎自行車的人進行三維檢測變得尤為困難,所有基于偽激光雷達的方法都無法檢測到這兩種類型的傳感器,如表2所示.該方法在行人和騎車人的三維檢測中仍取得了令人滿意的效果.此外,我們還在圖4中顯示了與我們的D4LCN的不同濾波器相對應(yīng)的活動映射.我們模型的同一層上的不同濾波器使用不同大小的感受野來處理不同規(guī)模的物體,包括行人(?。┖推嚕ù螅?以及遠處的汽車(小)和附近的汽車(大).
表2.D4LCN在三個數(shù)據(jù)分割上的多類3D檢測結(jié)果.
圖4.D4LCN的不同濾波器對應(yīng)的活動,分別表示1,2,3的擴張率.不同的濾波器在模型中有不同的函數(shù)來自適應(yīng)地處理尺度問題.
總結(jié)
本文提出了一種用于單眼三維目標檢測D4LCN,其卷積核和感受野(擴張率)對于不同圖像的不同像素和通道是不同的.這些核是在深度映射的基礎(chǔ)上動態(tài)生成的,以彌補二維卷積的局限性,縮小二維卷積與基于點云的三維算子之間的差距.結(jié)果表明,該算法不僅能解決二維卷積的尺度敏感和無意義的局部結(jié)構(gòu)問題,而且能充分利用RGB圖像的高級語義信息.而且D4LCN能更好地捕獲KITTI數(shù)據(jù)集上的三維信息,并能在KITTI數(shù)據(jù)集上進行單目三維目標檢測.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
助聽器原理相關(guān)文章:助聽器原理