RandomRooms:用于3D目標檢測的無監(jiān)督預訓練方法(ICCV2021)
論文標題:RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection
論文地址:https://arxiv.org/abs/2108.07794
摘要:近年來,三維點云理解取得了一定的進展。然而,一個主要的瓶頸是有注釋的真實數(shù)據(jù)集的稀缺,尤其是與2D目標檢測任務相比,因為對注釋場景的真實掃描需要大量的人力。解決這一問題的一個方法是利用由計算機輔助設計對象模型組成的合成數(shù)據(jù)集來實現(xiàn)在真實數(shù)據(jù)集上的學習,上述方法可以采用預訓練和微調程序實現(xiàn)。但是,當將在合成目標上學習的特征轉移到真實世界中應用時,往往會失敗。在這項工作中,研究人員提出了一種新的方法,通過利用合成計算機輔助設計數(shù)據(jù)集中的目標來生成場景的隨機布局,并且通過對從同一組合成目標生成的兩個隨機場景應用object-level對比學習來學習3D場景表示,用于為后期微調提供更好的初始化。從經驗上看,該方法在幾個基本模型上的下游3D檢測任務上的性能具有提升,尤其是當使用較少的訓練數(shù)據(jù)時,上述結果證明了該研究方法的有效性和通用性。通過運用豐富的語義知識和合成數(shù)據(jù)的多樣化對象,研究人員的方法在廣泛使用的3D檢測基準ScanNetV2和SUN RGB-D上獲取了當前最好的性能。研究人員期望該方法有望為目標和場景級別的3D理解提供新的視角。
研究貢獻:
在這項工作中,研究人員提出了一個新的框架,旨在對下游3D對象檢測任務進行微調之前,先使用合成CAD模型數(shù)據(jù)集(即ShapeNet)進行三維預訓練。為此,研究人員提出了RandomRooms的方法,其中,研究人員建議使用從ShapeNet數(shù)據(jù)集中隨機抽樣的一組對象生成兩種不同的場景布局,然后在object-level對兩者進行對比學習。
研究方法:
1.合成對象
與ScanNetV2相比,ScanNetV2包含17個類別的15000個對象,ShapeNet提供更為豐富的數(shù)據(jù)源,包含55個類別的52000個對象。因此,本研究的主要目標是研究如何使用ShapeNet收集的合成CAD模型來改進下游任務,如真實數(shù)據(jù)集上的3D檢測和分割。
現(xiàn)有研究不足:之前的研究工作直接在ShapeNet上進行預訓練無法提高下游檢測和分割任務的性能,主要原因可能是ShapeNet上的單個對象分類任務與真實數(shù)據(jù)集上的多對象局部化任務之間存在差距。為了彌補這一差距,研究人員建議利用合成對象生成偽場景(RandomRooms),以構建有助于場景級理解的訓練數(shù)據(jù)。
具體操作步驟:
1)對象增強:研究人員首先將對象調整為[0.5m,2.0m]的隨機大小,以確保對象與ScanNetV2中的對象具有相似的大小。然后,研究人員應用了常用的對象點云掃描技術,包括旋轉等。
2)布局生成:為了便于生成布局,研究人員將對象放置在矩形房間中。房間的大小根據(jù)增強對象的總面積自適應調整。布局基于兩個簡單的原則生成:(1)不重疊:任何兩個對象不應占據(jù)房間中的同一空間;(2)根據(jù)重力原則,物體不應漂浮在空中,較大的物體不應置于較小的物體之上。對于每個對象,研究人員首先隨機選擇X-Y平面上滿足上述原則的位置,然后根據(jù)位置的當前最大高度確定位置(Z值)。如果當前位置的最大高度超過2米,物體將不會被放置在某個位置。
3)場景增強:研究人員對整個場景應用數(shù)據(jù)增強,如繞Z軸旋轉等。為了使生成的場景更接近真實場景,研究人員還添加了地板和墻壁作為混淆因素。
示例圖像如下圖所示。
2.運用Random Rooms進行表示學習
為了利用生成的隨機房間,研究人員設計了一種object-level對比學習(OCL)方法,該方法學習區(qū)分性表示而無需類別標注,整體框架如下圖所示。
研究中給定n個隨機采樣對象,根據(jù)上述步驟生成2個隨機房間,采用點云編碼器-****網絡提取設定的2個場景中的特征。為了獲得每個對象的特征,研究中對屬于該對象的每點特征應用平均池化操作:
然后類似于對比學習中的常見做法,使用多層感知器和L2歸一化將對象特征投影到單位超球面上,Object-level對比學習目標可以寫成:
實驗:
表示學習的一個主要目標是學習能夠轉移到下游任務的表征。為了將研究人員的Random Rooms方法應用于對于場景級別的理解(如3D目標檢測),研究人員結合了無監(jiān)督預訓練和監(jiān)督微調。具體來說,研究人員首先使用本研究方法在ShapeNet上預訓練主干模型,然后使用預訓練的權重作為初始化,并在下游3D對象檢測任務中進一步微調模型。
(1) 預訓練設置
研究人員對ShapeNet進行了預訓練,ShapeNet是一個由55個常見類別的3D CAD模型表示的具有豐富注釋的形狀組成的數(shù)據(jù)集。要生成隨機房間,研究人員首先需要從數(shù)據(jù)集中隨機采樣多個對象。研究人員采樣的對象數(shù)是一個從12到18的隨機整數(shù),與ScanNetV2場景中的平均對象數(shù)相似。然后,對于每個采樣對象,研究人員執(zhí)行隨機房間生成算法,采用object-level對比學習損失以無監(jiān)督的方式對模型進行訓練.
對于下游3D目標檢測任務,研究人員使用了其他研究中的主干模型,該模型以40000個點作為輸入點。根據(jù)相應的網絡模型配置,研究人員使用1024點特征作為主干模型的輸出,并對該特征進行對比學習。在訓練期間,研究人員使用初始學習率為0.001的Adam優(yōu)化器,對模型進行了300個epoch的訓練,在第100次和第200次epoch時,學習率乘以0.1,batch size設置為16,這樣在每次迭代中,大約200~300個對象參與對比學習。
(2) 3D物體檢測
數(shù)據(jù)集:研究人員在兩個廣泛使用的3D檢測基準上進行了實驗,ScanNetV2和SUNRGBD。ScanNetV2是一個具有豐富注釋的室內場景三維重建網格數(shù)據(jù)集。它包含1513個掃描和重建的真實場景,由18個不同大小和形狀的不同類別的對象組成。目前,它是使用輕型RGB-D掃描程序創(chuàng)建的最大的一個數(shù)據(jù)集。然而,與2D視覺中的數(shù)據(jù)集相比,它的規(guī)模仍然小得多。研究人員將整個數(shù)據(jù)集劃分為兩個子集,分別有1201和312個場景,用于以下訓練和測試。
SUN RGB-D是用于三維場景理解的單視圖RGB-D數(shù)據(jù)集。它包含10335個室內RGB和深度圖像,帶有對象邊界框和帶有10種不同對象類別的語義標簽。研究人員也嚴格遵循相應的拆分方法,5285個樣本作為訓練數(shù)據(jù),5050個樣本作為測試數(shù)據(jù)。
檢測模型:研究人員將本方法與最近提出的兩種最先進的方法進行了比較:一種是VoteNet,另一個是H3DNet。它們都以無色的3D點云作為輸入。研究人員還將GSPN、3D-SIS、DSS、F-PointNet、2D-driven和Cloud of gradient等使用其他類型的信息進行目標檢測的信息納入比較。
消融研究:如下表所示,研究人員進行了三組消融研究,都是在以VoteNet為主干的 ScanNetV2數(shù)據(jù)集上進行的,使用mAP@0.25作為評估指標。
首先研究執(zhí)行預訓練的數(shù)據(jù)集的選擇。研究人員發(fā)現(xiàn)在ShapeNet或ScanNetV2上進行預訓練都可以提高性能,然而,由于ShapeNet的規(guī)模更大,即來自更多樣化類別的樣本,與ScanNetV2相比,對其進行預訓練可以獲得更好的結果。此外,研究中展示了組合兩個數(shù)據(jù)集以幫助預訓練的可能性,擁有來自兩個數(shù)據(jù)集的對象,與使用單個數(shù)據(jù)集相比,可以獲得更好的微調結果。同時,研究人員研究了用于預訓練的損失函數(shù)的影響。與PointContrast使用的point-level對比損失相比,可以通過instance-level對比損失獲得更好的預訓練結果。這表明object-level對比學習可以通過結合更多instance-level知識更好地幫助下游定位任務。此外,由于ShapeNet中對象的標簽易于訪問,還通過為對象的所有點分配相應的對象標簽來增加額外的分割損失。上述說明該研究中的無監(jiān)督預訓練策略可以實現(xiàn)與合成數(shù)據(jù)集上的監(jiān)督預訓練相當?shù)男阅堋?/p>
可視化:通過可視化在VoteNet的檢測結果,如下圖所示,預訓練的模型可以產生更準確的檢測結果,錯誤更少,并且更接近于真實邊界框。可視化的結果進一步證實了所提出方法的有效性。
總結:
該研究提出了一種新的框架,RandomRoom,應用于3D預訓練,它可以利用合成的CAD模型數(shù)據(jù)集來幫助在高級3D對象檢測任務中學習真實數(shù)據(jù)集。與之前在點級別執(zhí)行對比學習的工作不同,該研究通過從CAD模型數(shù)據(jù)集中隨機采樣的同一組對象組合兩個不同的場景,在object-level執(zhí)行對比學習,并在多個基礎模型的3D檢測任務中提升了性能,尤其是在使用較少訓練數(shù)據(jù)時。通過運用豐富的語義知識和合成數(shù)據(jù)的多樣化對象,研究人員的方法在廣泛使用的3D檢測基準ScanNetV2和SUN RGB-D上獲取了當前最好的性能。除了這項工作,該研究可以為未來的研究開辟一條新途徑,即如何利用易于訪問的合成對象來執(zhí)行更復雜的3D場景理解任務。
備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超干貨的3D視覺學習社區(qū)
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。