最新綜述:基于深度學(xué)習(xí)方式的單目物體姿態(tài)估計與跟蹤
原文:Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview
作者:中國人民大學(xué)、清華大學(xué)、北京交通大學(xué)
摘要
目標姿態(tài)檢測與跟蹤在自動駕駛、機器人技術(shù)、增強現(xiàn)實等領(lǐng)域有著廣泛的應(yīng)用,近年來受到越來越多的關(guān)注。在目標姿態(tài)檢測和跟蹤的方法中,深度學(xué)習(xí)是最有前途的一種,其性能優(yōu)于其他方法。然而,對于基于深度學(xué)習(xí)方法的最新發(fā)展卻缺乏調(diào)查研究。因此,本文對深度學(xué)習(xí)技術(shù)路線中目標姿態(tài)檢測與跟蹤的最新進展進行了綜述。為了更深入的介紹,本文的研究范圍僅限于以單目RGB/RGBD數(shù)據(jù)為輸入的方法,包括實例級單目目標姿態(tài)檢測、類別級單目目標姿態(tài)檢測和單目目標姿態(tài)跟蹤三類主要任務(wù)。論文詳細介紹了檢測和跟蹤的度量、數(shù)據(jù)集和方法。文中還介紹了幾種公開數(shù)據(jù)集上的最新方法的比較結(jié)果,以及有見地的觀察結(jié)果和啟發(fā)性的未來研究方向。
數(shù)據(jù)集介紹
實例級單目目標姿態(tài)估計與跟蹤數(shù)據(jù)集:主要包括經(jīng)典的Linemod、YCB等數(shù)據(jù)集~
類別級單目目標姿態(tài)估計與跟蹤數(shù)據(jù)集:主要包括KITTI3D、Apolloscape等開源數(shù)據(jù)集~
實例級單目目標姿態(tài)檢測
實例級單目目標姿態(tài)檢測的目的是檢測目標并估計其相對于標準幀的6自由度姿態(tài)(旋轉(zhuǎn)和平移),又可分為基于RGB數(shù)據(jù)和RGBD數(shù)據(jù)。
基于RGB數(shù)據(jù)的方法
對于六自由度姿態(tài)的估計,最直接的方法是讓深度學(xué)習(xí)模型直接預(yù)測姿態(tài)相關(guān)參數(shù)。然而,從單個RGB圖像直接估計6自由度姿態(tài)是一個不適定的問題,并面臨挑戰(zhàn)。由于CAD模型的存在,在輸入圖像和對象模型之間建立2D-3D的對應(yīng)關(guān)系有助于簡化任務(wù)。根據(jù)以上觀察,我們提供了一個基于RGB的實例級單目物體姿態(tài)檢測的整體示意圖,如圖4所示。
一般來說,我們將基于深度學(xué)習(xí)的方法分為五大類:直接方法、基于關(guān)鍵點的方法、基于密集坐標的方法、基于細化的方法和自監(jiān)督方法,五類方法對應(yīng)的最新算法以及對應(yīng)性能如表3和表4所示:
基于RGBD數(shù)據(jù)方法
RGB圖像缺乏深度信息,使得6自由度物體姿態(tài)檢測任務(wù)成為一個病態(tài)問題。幸運的是,單目RGBD相機的發(fā)展推動了基于(RGB)D的6自由度姿態(tài)估計方法的發(fā)展(基于RGB的方法以RGBD圖像或深度掩模為輸入,充分利用點云表示的能力預(yù)測物體的姿態(tài)。一般來說,基于(RGB)D的方法可以分為基于檢索的方法、基于關(guān)鍵點的方法和其他基于深度學(xué)習(xí)的方法。
基于(RGB)D的實例級單目物體姿態(tài)檢測方法的總體示意圖如圖5所示,算法分類如表6所示。
類別級單目目標姿態(tài)檢測
根據(jù)預(yù)測的重點是1Dof旋轉(zhuǎn)還是3Dof旋轉(zhuǎn),將相關(guān)方法分為類別級單目3D目標檢測和類別級單目6D姿態(tài)檢測。
1、Category Level Monocular 3D Object Detection
類別級單目三維目標檢測需要預(yù)測7個自由度(7Dof)的姿態(tài)配置,包括旋轉(zhuǎn)(1)(即只需要預(yù)測偏航)、平移(3)和目標尺寸(3),訓(xùn)練和測試期間沒有可用的CAD模型。類別級單目三維目標檢測對于自主駕駛場景具有重要意義。它更關(guān)注平移預(yù)測的精度,而旋轉(zhuǎn)預(yù)測的精度可以相應(yīng)放寬。激光雷達采集的點云和單目RGB圖像是最常用的數(shù)據(jù)格式。
常用的方法包括2D proposal方式、Psudeo-LIDAR方式、Keypoints方式以及其它方式,如表7所示。
2、Category Level Monocular 6D Pose Detection
類別級6D姿態(tài)估計,9個維度,三個旋轉(zhuǎn),三個平移,三個尺寸。主要分為基于Aligning、Regressing、Rligning方式,如表8所示。
單目目標姿態(tài)跟蹤
在本節(jié)中,我們將介紹單目物體姿態(tài)跟蹤方法。根據(jù)CAD模型是否可用,將相關(guān)方法分為實例級單目目標姿態(tài)跟蹤和類別級單目目標姿態(tài)跟蹤。整體示意圖如圖8所示:
1、實例級單目目標姿態(tài)跟蹤
主要包括Tracking by refinement.、Tracking by optimization方式,思路如圖8所示。
2、類別級單目目標姿態(tài)跟蹤
主要包括Tracking by detection、Tracking by keypoints,思路如圖8所示。
聊一下單目姿態(tài)檢測與跟蹤方式的優(yōu)缺點以及未來發(fā)展方向
1、實例級基于RGB方式的姿態(tài)檢測
第一,雖然現(xiàn)有的算法在簡單的室內(nèi)場景中表現(xiàn)得足夠好,但是它們?nèi)匀缓茈y處理遮擋情況還有雜亂的背景。然而,在實際應(yīng)用中,像遮擋這樣的干擾是不可避免的。因此,研究如何處理遮擋等復(fù)雜干擾是一個很好的研究方向。
第二,現(xiàn)有的僅限RBG的方法非常容易受到光線變化和拍攝角度等因素的影響。這些因素會導(dǎo)致圖像的模糊、反射、盲點、截止等,使得從圖像中提取的特征變得模糊,特別是當這些特征用于檢測關(guān)鍵點時。對于環(huán)境控制的室內(nèi)場景(例如室內(nèi)工廠),這可能不是什么大問題。然而,對于戶外應(yīng)用,如手機增強現(xiàn)實,由于光照條件的不可控性和不可預(yù)測性,這將成為其廣泛應(yīng)用的最大障礙。因此,設(shè)計對上述因素具有魯棒性的算法也是今后的一個重要研究課題。
第三,已有研究表明,建立二維-三維物體姿態(tài)估計對應(yīng)比直接預(yù)測姿態(tài)參數(shù)效果更好,主流工作長期致力于研究如何更好地建立對應(yīng)。然而,這種方法不能以端到端的方式進行訓(xùn)練。此外,建立和求解對應(yīng)關(guān)系非常耗時,因此,未來需要考慮設(shè)計可微的2D-3D對應(yīng)關(guān)系求解算法,用神經(jīng)網(wǎng)絡(luò)代替,或者探索提高無對應(yīng)方法性能的可能性。
2、實例級基于RGBD方式的姿態(tài)檢測
盡管現(xiàn)有的方法總是比僅使用RGB的方法表現(xiàn)得更好,但是由于需要學(xué)習(xí)額外的深度信息,它們通常會消耗更多的計算資源。有些方法需要額外的細化步驟,比如ICP,以提高性能,這進一步增加了運行時間。因此,設(shè)計一個更輕量級的網(wǎng)絡(luò)結(jié)構(gòu)來降低時間復(fù)雜度和空間復(fù)雜度可能是一個有價值的未來研究課題。
? 大多數(shù)現(xiàn)有的低功耗硬件(如移動電話)只能捕獲使用中的稀疏點云。雖然現(xiàn)有的(RGB)基于D的方法都是在深度圖生成的密集點云數(shù)據(jù)集上進行評估的,但它們在稀疏點云上的性能尚不清楚。這造成了評估性能和實際使用之間的偏差。因此,有必要研究現(xiàn)有算法是否適合以稀疏點云作為輸入。如果沒有,就應(yīng)該提出新的算法。
? 眾所周知,標記物體的6自由度姿勢非常困難。因此,我們面臨的另一個重要挑戰(zhàn)是如何獲得精確的地面真相。由于現(xiàn)有先進的計算機圖形學(xué)技術(shù),具有地面真實感的合成數(shù)據(jù)非常容易獲得,可以用來訓(xùn)練目標姿態(tài)檢測模型。然而,在合成數(shù)據(jù)集上訓(xùn)練的模型在真實世界的圖像上通常表現(xiàn)不佳。因此,這就提出了一個新的可能的未來研究問題:如何提高在綜合數(shù)據(jù)集上訓(xùn)練的模型的泛化能力。現(xiàn)有的自監(jiān)督學(xué)習(xí)方法已經(jīng)提供了一些有前途的前期研究,但還需要付出更多的努力。值得注意的是,該研究方向同樣適用于基于RGB的實例級方法和類別級方法。
3、類別級別3D目標檢測
由于其主要應(yīng)用是為自動駕駛提供環(huán)境信息,定位物體比預(yù)測物體的大小和方向更重要。
然而,利用單個RGB圖像在三維空間中定位目標是不適定的,因此,如何使模型具有深度預(yù)測能力是至關(guān)重要的。由于該任務(wù)所使用的圖像通常包含多個對象,并且包含廣泛的特征豐富的背景,因此使用它們來推斷深度信息可能是一種可行的解決方案。也就是說,如何利用instance aware關(guān)系來提高模型的深度感知能力,尤其是如何利用隱藏在圖像中的非局部特征。將視覺transformer納入網(wǎng)絡(luò)架構(gòu)可能是一個好主意。
? 利用偽激光雷達是一個可行的研究方向。然而,目前基于偽激光雷達的解決方案通常使用現(xiàn)成的深度預(yù)測模型預(yù)先預(yù)測深度。它造成了三維探測和深度預(yù)測之間的差距。也就是說,現(xiàn)有的深度估計模型存在次優(yōu)問題,利用其生成的偽LiDAR點云進行三維探測將進一步加劇這一問題。因此,在未來的偽激光雷達研究中,在同一網(wǎng)絡(luò)或同一訓(xùn)練過程中,將深度估計與三維探測相結(jié)合,以獲得互為性能增益,避免不同次優(yōu)問題積累的探測誤差,具有重要的應(yīng)用價值。
? KITTI3D等現(xiàn)有數(shù)據(jù)集始終包含激光雷達捕獲的點云和單目相機捕獲的圖像。盡管這一點在單目檢測任務(wù)中,云數(shù)據(jù)在推理時是不允許使用的,研究如何更好地利用云數(shù)據(jù)進行訓(xùn)練具有重要意義單目三維物體探測器。例如,我們可以利用點云在訓(xùn)練時學(xué)習(xí)卷積權(quán)重,而在推理時丟棄它們?;蛘呶覀兛梢允褂矛F(xiàn)成的點云三維探測器作為教師網(wǎng)絡(luò)來訓(xùn)練單目三維探測器,就像在知識蒸餾中的那樣。
4、類別級6D姿態(tài)估計
大多數(shù)方法都需要使用現(xiàn)成的二維目標檢測模型來提前定位目標。然后在進行姿態(tài)預(yù)測之前,對目標圖像進行裁剪和調(diào)整大小。這樣的兩階段方案可能會導(dǎo)致定位誤差的累積。因此,一個問題是,是否有可能在一個統(tǒng)一的網(wǎng)絡(luò)中或通過完全無建議的方式生成對象建議和完成姿態(tài)估計。答案顯然是肯定的,參考了無錨2D目標檢測模型的成功經(jīng)驗。然而,到目前為止,還沒有研究人員朝著這個方向努力。
? 盡管現(xiàn)有方法通常使用大型主干(如ResNet-101)來學(xué)習(xí)特性,以確保高精度和有效性,但它們同時降低了效率。再加上二維目標檢測過程耗時,6D姿態(tài)檢測體系結(jié)構(gòu)很難保證其實時性。因此,輕量級實時執(zhí)行模型是一個值得研究的課題。
? 大多數(shù)現(xiàn)有算法高度依賴于深度信息的利用。然而,眾所周知,僅以RGB圖像作為輸入對于手機上的增強現(xiàn)實(augmentedreality)等應(yīng)用非常重要。雖然已經(jīng)提出了幾種僅適用于RGB的方法,但是它們的性能都很差。因此,在僅RGB類別級單目6D位姿檢測方面可以做更多的工作。
5、單目物體姿態(tài)跟蹤
如果CAD模型可用,則在受控場景中解決此問題并不困難。在不可控場景(如自動駕駛場景、室外照明場景等)中,我們將面臨實例級目標姿態(tài)檢測任務(wù)所面臨的所有問題。
? 我們發(fā)現(xiàn),現(xiàn)有的目標姿態(tài)跟蹤算法通常只以兩幀圖像(當前幀和前一幀)作為輸入來預(yù)測當前幀的目標姿態(tài)。這可能導(dǎo)致三個主要問題:第一,順序信息沒有得到充分利用。其次,跟蹤錯誤會隨著時間的推移而累積,無法消除。第三,可能出現(xiàn)盒子漂移問題。為了解決這些問題,單目目標姿態(tài)跟蹤引入了一個可行的研究方向,即利用LSTM等遞歸神經(jīng)網(wǎng)絡(luò)來關(guān)聯(lián)多幀信息。它不僅可以提高特征的利用率,而且可以保證跟蹤結(jié)果的穩(wěn)定性。
? 許多現(xiàn)有的方法需要渲染CAD模型,這非常耗時,因為大多數(shù)現(xiàn)有的渲染器要么是不可微分的,要么是經(jīng)濟高效的。因此,設(shè)計高效的、可微的繪制算法是今后工作的重點。
? 此外,當CAD模型不可用時,大多數(shù)現(xiàn)有工程僅跟蹤7自由度3D邊界框。據(jù)我們所知,只有一項工作可以實現(xiàn)全9自由度類別級的姿態(tài)跟蹤。如前所述,7自由度姿態(tài)足以滿足位置感知場景(如自動駕駛)的要求,而對于旋轉(zhuǎn)和尺寸軟件場景(如增強現(xiàn)實)則不夠。因此,跟蹤全9自由度邊界盒將是一個有意義的研究課題,應(yīng)該引起更多的關(guān)注。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。