色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 自動駕駛中多模態(tài)三維目標(biāo)檢測研究綜述

          自動駕駛中多模態(tài)三維目標(biāo)檢測研究綜述

          發(fā)布人:計算機視覺工坊 時間:2021-07-10 來源:工程師 發(fā)布文章

          摘要:過去幾年,我們見證了自動駕駛的快速發(fā)展。然而,由于復(fù)雜和動態(tài)的駕駛環(huán)境,目前實現(xiàn)完全自動駕駛?cè)匀皇且豁椘D巨的任務(wù)。因此,自動駕駛汽車配備了一套傳感器來進行強大而準(zhǔn)確的環(huán)境感知。隨著傳感器的數(shù)量和類型不斷增加,將它們?nèi)诤蟻砀玫馗兄h(huán)境正在成為一種趨勢。到目前為止,還沒有文章對基于多傳感器融合的3D目標(biāo)檢測進行深入調(diào)研。為了彌合這一差距并推動未來的研究,本文致力于回顧最近利用多個傳感器數(shù)據(jù)源(尤其是相機和 LiDAR)的基于融合的 3D 檢測深度學(xué)習(xí)模型。首先,本文介紹了自動駕駛汽車中常用的傳感器,包括它們的通用數(shù)據(jù)表示以及基于每種類型的傳感器數(shù)據(jù)的3D目標(biāo)檢測網(wǎng)絡(luò)。接下來,我們討論一些多模態(tài)3D目標(biāo)檢測中流行的數(shù)據(jù)集,重點介紹每個數(shù)據(jù)集中包含的傳感器數(shù)據(jù)。然后我們從三個方面來深入回顧最近的多模態(tài)3D檢測融合網(wǎng)絡(luò):融合位置、融合數(shù)據(jù)表示和融合粒度。最后,本文總結(jié)了現(xiàn)有的開放式挑戰(zhàn)并指出可能的解決方案。

          1. 引言

          自動駕駛感知模塊

          如圖1,自動駕駛汽車(AV)通常配備一個感知子系統(tǒng)來實時檢測和跟蹤運動目標(biāo)。感知子系統(tǒng)是將來自一組傳感器的數(shù)據(jù)作為輸入,經(jīng)過一系列的處理步驟后,輸出關(guān)于環(huán)境、其他物體(如汽車)以及自動駕駛汽車本身的知識。如圖2所示,AV上的傳感器通常包括攝像頭、激光雷達(Light Detection And Ranging sensor,LiDAR)、雷達(Radio detection and ranging,Radar)、GPS(Global Positioning System)、慣性測量單元(inertial measurement units)等。

          具體來說,感知子系統(tǒng)有三個基本要求。

          首先,它需要是準(zhǔn)確的,并給出了駕駛環(huán)境的準(zhǔn)確描述。

          其次,具有魯棒性。能在惡劣天氣下、甚至當(dāng)一些傳感器退化甚至失效時保證AV的穩(wěn)定與安全。

          第三,實時性,能提供快速的反饋。

          為了滿足上述需求,感知子系統(tǒng)同時執(zhí)行多個重要任務(wù),如3D目標(biāo)檢測、跟蹤、同步定位與映射(SLAM)等。

          1.png

          圖1:一個典型的自動駕駛感知子系統(tǒng)

          2.png

          圖2:自動駕駛汽車Sonic

          3D目標(biāo)檢測

          3D目標(biāo)檢測是感知子系統(tǒng)的一項重要任務(wù),其目的是在傳感器數(shù)據(jù)中識別出所有感興趣的物體,并確定它們的位置和類別(如車輛、自行車、行人等)。在3D目標(biāo)檢測任務(wù)中,需要輸出參數(shù)來指定物體周圍的面向3d的邊界框。如圖3所示,為了繪制紅色的三維包圍盒,我們需要預(yù)測中心三維坐標(biāo)c,長度l,寬度w,高度h,物體偏轉(zhuǎn)角度θ。顯然,2D目標(biāo)檢測無法滿足自動駕駛環(huán)境感知的需求,因為缺少現(xiàn)實三維空間下的目標(biāo)位置。接下來介紹自動駕駛的3D目標(biāo)檢測任務(wù),根據(jù)傳感器的使用類型,包括使用相機、使用LiDAR以及使用Radar等一些單模態(tài)方法。在第二章中會詳細介紹。

          3.png

          結(jié)果例子(分別對應(yīng)綠框、紅框)

          多模態(tài)目標(biāo)檢測

          在現(xiàn)實的自動駕駛情況下,通過單一類型的傳感器進行目標(biāo)檢測是遠遠不夠的。首先,每種傳感器都有其固有的缺點。例如,Camera only方法易遭受物體遮擋;LiDAR only方法的缺點是輸入數(shù)據(jù)的分辨率比圖像低,特別是在遠距離時點過于稀疏。圖4清楚地展示了兩種單模態(tài)檢測失效的情況。其次,要實現(xiàn)真正的自動駕駛,我們需要考慮廣泛的天氣、道路和交通條件。感知子系統(tǒng)必須在所有不同的條件下都能提供良好的感知結(jié)果,這是依靠單一類型的傳感器難以實現(xiàn)的。

          4.png

          圖4:單模態(tài)探測器典型問題的說明。對于場景#1,(a)表示Camera only無法避免遮擋問題,(b)中LiDAR only檢測器檢測結(jié)果正確;而在場景2中,(c)中Camera only的檢測器表現(xiàn)良好,而(d)中LiDAR only檢測器顯示了遠處點云稀疏時檢測的難度。請注意,虛線紅框表示未探測目標(biāo)

          為了解決這些挑戰(zhàn),多模態(tài)融合的3D檢測方法被提出。雖然傳感器融合帶來了可觀的好處,但如何進行高效的融合對底層系統(tǒng)的設(shè)計提出了嚴(yán)峻的挑戰(zhàn)。一方面,不同類型的傳感器在時間和空間上不同步;在時域上,由于不同傳感器的采集周期是相互獨立的,很難保證同時采集數(shù)據(jù)。在空間領(lǐng)域,傳感器在部署時具有不同的視角。另一方面,在設(shè)計融合方法時,我們需要密切關(guān)注幾個問題。下面我們列舉了一些問題作為例子。

          多傳感器校準(zhǔn)和數(shù)據(jù)對齊:由于多模態(tài)數(shù)據(jù)的異質(zhì)性(如表1所示),無論是在原始輸入空間還是在特征空間,都很難對它們進行精確對齊。

          信息丟失:我們以計算為代價,將傳感器數(shù)據(jù)轉(zhuǎn)換為一種可以對齊的處理格式,信息丟失是不可避免的。

          跨模態(tài)數(shù)據(jù)增強:數(shù)據(jù)增強在3D目標(biāo)檢測中起著至關(guān)重要的作用,可以防止模型過擬合。全局旋轉(zhuǎn)和隨機翻轉(zhuǎn)等增強策略在單模態(tài)融合方法中得到了廣泛的應(yīng)用,但由于多傳感器一致性的問題,許多多傳感器融合方法都缺少這種增強策略。

          數(shù)據(jù)集與評價指標(biāo):高質(zhì)量、可公開使用的多模態(tài)數(shù)據(jù)集數(shù)量有限。即使是現(xiàn)有的數(shù)據(jù)集也存在規(guī)模小、類別不平衡、標(biāo)記錯誤等問題。此外,目前還沒有針對多傳感器融合模型的評價指標(biāo),這給多傳感器融合方法之間的比較帶來了困難。

          5.png

          本文貢獻

          我們對最近基于深度學(xué)習(xí)的多模態(tài)融合3D目標(biāo)檢測方法進行了系統(tǒng)的總結(jié)。特別地,由于攝像頭和LiDAR是自動駕駛中最常見的傳感器,我們的綜述重點關(guān)注這兩種傳感器數(shù)據(jù)的融合。

          根據(jù)輸入傳感器數(shù)據(jù)的不同組合,對基于多模態(tài)的3D目標(biāo)檢測方法進行分類。特別是range image(點云的一種信息完整形式)、pseudo-LiDARs (由相機圖像生成),在過去的綜述文章中沒有進行討論。

          從多個角度仔細研究了基于多模態(tài)的3D目標(biāo)檢測方法的發(fā)展。重點關(guān)注這些方法如何實現(xiàn)跨模態(tài)數(shù)據(jù)對齊,如何減少信息損失等關(guān)鍵問題。

          對基于深度學(xué)習(xí)的相機-LiDAR融合的方法進行詳細對比總結(jié)。同時,我們還介紹了近年來可用于3D目標(biāo)檢測的多模態(tài)數(shù)據(jù)集。

          仔細探討具有挑戰(zhàn)性的問題,以及可能的解決方案,希望能夠啟發(fā)一些未來的研究。

          2. 背景

          在本節(jié)中,我們將提供自動駕駛中使用的典型傳感器的背景概述,包括基于于每種傳感器的數(shù)據(jù)表示和3D目標(biāo)檢測方法。其中,我們主要討論相機和激光雷達傳感器。最后,介紹了其他的一些傳感器。

          基于相機的3D目標(biāo)檢測

          相機的得到的數(shù)據(jù)是圖像。在多模態(tài)融合方法中,對于圖像的處理形式,有以下幾種表示。

          1)Feature map

          2)Mask

          3)Pseudo-LiDAR

          6.png

          圖5:RGB圖像及其典型數(shù)據(jù)表示。原始圖像來自KITTI訓(xùn)練集。對于(b),使用預(yù)先訓(xùn)練的AlexNet獲取64個通道的特征圖。對于(d),我們采用偽點云的BEV來更好的顯示

          基于LiDAR的3D目標(biāo)檢測

          由于點云數(shù)據(jù)是不規(guī)則的和稀疏的,找到一個合適的點云表示對于高效的處理是很重要的。大多數(shù)現(xiàn)有的處理形式可以分為三大類:體素、點和視圖。

          1)Voxel-based

          2)Point-based

          3)View-based

          7.png

          圖6:原始點云及其典型數(shù)據(jù)表示。我們從KITTI訓(xùn)練集中得到原始點云

          基于其他傳感器的3D目標(biāo)檢測

          AV其他的傳感器包括如Radar,紅外相機等等。這里我們主要介紹毫米波雷達(mmRadar)。我們使用原始收集的雷達數(shù)據(jù)進行可視化。如圖7所示,對原始數(shù)據(jù)進行兩次快速傅里葉變換,得到圖像對應(yīng)的距離-方位熱圖。(b)中的亮度表示該位置的信號強度,也表明物體出現(xiàn)的概率很高。

          8.png

          圖7:同一場景上的RGB圖像(a)和毫米波雷達熱圖(b)。數(shù)據(jù)是在中國科學(xué)技術(shù)大學(xué)西校區(qū)北門收集的。

          3. 數(shù)據(jù)集與評價指標(biāo)

          數(shù)據(jù)集是有效進行深度學(xué)習(xí)研究的關(guān)鍵。特別是,像3D目標(biāo)檢測這樣的任務(wù)需要精細標(biāo)記的數(shù)據(jù)。在這一部分,我們討論了一些廣泛使用的自動駕駛3D目標(biāo)檢測數(shù)據(jù)集。并且進行了詳細地比較,包括年份,激光雷達數(shù)量,激光雷達通道數(shù)量、攝像頭的數(shù)量,是否帶有雷達,2D盒子的數(shù)量(不區(qū)分2D盒子和2D實例分割注釋),3D盒子的數(shù)量,標(biāo)注的類的數(shù)量,以及位置。具體如表2所展示。

          9.png

          另外,大多數(shù)基于深度學(xué)習(xí)的多模態(tài)融合方法都是在KITTI、nuSecenes、Waymo上進行實驗的。從圖8,我們觀察到三個流行的數(shù)據(jù)集的大小從只有15,000幀到超過230,000幀。與圖像數(shù)據(jù)集相比,這里的數(shù)據(jù)集仍然相對較小,對象類別有限且不平衡。圖8也比較了汽車類、人類和自行車類的百分比。有更多的物體被標(biāo)記為“汽車”比“行人”或“自行車”。

          10.png

          圖8:KITTI、nuScenes和Waymo開放數(shù)據(jù)集的比較

          4. 基于深度學(xué)習(xí)的多模態(tài)3D檢測網(wǎng)絡(luò)

          在本節(jié)中,我們介紹了基于多模態(tài)融合的3D檢測網(wǎng)絡(luò)。我們通過考慮以下三個融合策略中的重要因素來組織我們的文章:(1)融合位置,即多模態(tài)融合在整個網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)生的位置;(2)融合輸入,即每個傳感器使用什么數(shù)據(jù)表示進行融合;(3)融合粒度,即多個傳感器的數(shù)據(jù)在什么粒度進行融合檢測。

          其中,融合位置是區(qū)分融合方法的最重要因素。一般來說,我們有兩種可能的融合位置,如圖9所示:特征融合和決策融合。特征融合是將不同模態(tài)的特征組合起來得到檢測結(jié)果,而決策融合則是將每個單獨的檢測結(jié)果組合起來。下面,我們首先回顧了特征融合方法,然后討論了決策融合方法。注意,由于融合方法的設(shè)計與數(shù)據(jù)集的選擇是正交的,因此我們將一起討論KITTI、Waymo和nuScenes數(shù)據(jù)集的融合方法。其中,大多數(shù)多模態(tài)三維檢測方法都是在KITTI上進行評價的。從表3的評價總結(jié)中,可以清楚地看出該方法適用于哪些數(shù)據(jù)集。

          11.png12.png

          圖9:特征融合與決策融合

          特征融合

          特征融合在神經(jīng)網(wǎng)絡(luò)層中分層混合模態(tài)。它允許來自不同模式的特性在層上相互交互。特征融合方法需要特征層之間的相互作用,如圖9 (a)所示。這些方法首先對每個模態(tài)分別采用特征提取器,然后結(jié)合這些特征實現(xiàn)多尺度信息融合。最后,將融合后的特征輸入神經(jīng)網(wǎng)絡(luò)層,得到檢測結(jié)果。

          許多融合方法都屬于這一類。我們基于傳感器數(shù)據(jù)的不同組合,將這些方法分成以下幾類。

          Point cloud view & image feature map

          point cloud voxels & image feature map

          LiDAR points & image feature map

          LiDAR points & image mask:

          point cloud voxels & image mask

          point cloud voxels & point cloud view & image feature map

          point cloud voxels & image feature map & image pseudo-LiDAR

          此外,在特征融合方法中,我們還需要關(guān)注融合粒度。具體來說,特征融合可以在不同粒度上進行,即RoI-wise、voxel-wise、point-wise和pixel-wise。圖10總結(jié)了基于深度學(xué)習(xí)的多模態(tài)三維檢測方法出現(xiàn)的年份,并對每種方法的融合粒度進行了標(biāo)記。我們觀察到,早期方法融合粒度比較粗糙,主要使用RoI和voxel。隨著多模態(tài)目標(biāo)檢測技術(shù)的快速發(fā)展,融合粒度越來越細,融合種類越來越多,檢測性能不斷提高。

          13.png

          圖10:特征融合3D目標(biāo)檢測方法的時間軸。用不同的顏色來標(biāo)記它們的融合粒度。

          決策融合

          在決策融合中,多模態(tài)數(shù)據(jù)被單獨、獨立地處理,融合發(fā)生在最后的決策階段。這種方法的思想通常是利用神經(jīng)網(wǎng)絡(luò)對傳感器數(shù)據(jù)進行并行處理,然后將得到的所有決策輸出進行融合,得到最終結(jié)果。與特征融合相比,決策融合可以更好地利用現(xiàn)有網(wǎng)絡(luò)對每個模態(tài)的影響,并且我們可以很容易地知道每個模態(tài)的結(jié)果是否正確。然而,從表4可以看出,一個不能忽視的嚴(yán)重缺點是不能使用豐富的中間層特征。因此,決策融合直到最近才受到人們的重視。

          14.png

          相機-LiDAR融合方法總結(jié)

          綜上所述,大多數(shù)融合方法都是基于KITTI 3D基準(zhǔn),但在KITTI 3D目標(biāo)檢測排行榜上排名靠前的方法主要是LiDAR-only方法。在KITTI數(shù)據(jù)集上,多模態(tài)方法的效果并不好。相反,在最新數(shù)據(jù)集如nuScenes和Waymo Open Dataset上,排名靠前的方法主要是多模態(tài)融合的方法。一個可能的原因是這些數(shù)據(jù)集中使用的LiDAR傳感器具有不同的分辨率。KITTI使用一個64通道的LiDAR,nuScenes使用一個32光束的LiDAR。因此,當(dāng)點云相對稀疏時,多模態(tài)方法更有用。更重要的是,最近的融合方法有一些共同的特點。一方面,它們都采用point-wise的融合粒度來有效地建立激光雷達點與圖像像素之間的精確映射;另一方面,在訓(xùn)練融合網(wǎng)絡(luò)的過程中,都進行了精心設(shè)計的跨模態(tài)數(shù)據(jù)增強,不僅加快了網(wǎng)絡(luò)的收斂速度,而且緩解了類間的不平衡問題

          其他傳感器融合方式

          我們還簡單討論了針對其他類型傳感器的融合方法,如Radar-相機,LiDAR-Radar等。

          5. 開放式挑戰(zhàn)與可能的解決方案

          在本節(jié)中,我們將討論多模態(tài)3D目標(biāo)檢測的開放式挑戰(zhàn)和可能的解決方案。我們重點討論了如何提高多傳感器感知系統(tǒng)的準(zhǔn)確性和魯棒性,并同時實現(xiàn)系統(tǒng)的實時性。表6總結(jié)了我們的討論。包括以下幾個關(guān)鍵問題。

          多傳感器聯(lián)合標(biāo)定

          數(shù)據(jù)對齊

          跨模態(tài)數(shù)據(jù)增強

          數(shù)據(jù)集與評價指標(biāo)

          15.png

          6. 總結(jié)

          由于3D視覺在自動駕駛等應(yīng)用中的重要性日益增加,本文綜述了近年來的多模態(tài)3D目標(biāo)檢測網(wǎng)絡(luò),特別是相機圖像和激光雷達點云的融合。我們首先仔細比較了常用的傳感器,討論了它們的優(yōu)缺點,總結(jié)了單模態(tài)方法的常見問題。然后,我們提供了幾個常用的自動駕駛數(shù)據(jù)集的深入總結(jié)。為了給出一個系統(tǒng)的回顧,我們考慮以下三個維度對多模態(tài)融合方法進行分類:(1)融合在管道中發(fā)生的位置;(2)每個融合輸入使用什么數(shù)據(jù)表示;(3)融合算法的粒度是什么。最后,我們討論了在多模態(tài)3D目標(biāo)檢測中的開放式挑戰(zhàn)和潛在的解決方案。

          文章鏈接:https://arxiv.org/abs/2106.12735

          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: 自動駕駛

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉