ICCV2021|一種用于解決點云場景中同類對象分割的網(wǎng)絡(luò)
首次提出:一種用于解決點云場景中同類對象分割的端到端網(wǎng)絡(luò)
融合協(xié)同對比學(xué)習(xí)和相互注意采樣機制進(jìn)行無監(jiān)督點云對象的同類分割
Unsupervised Point Cloud Object Co-segmentation by Co-contrastive Learning and Mutual Attention Sampling
代碼地址:https://github.com/jimmy15923/unsup_point_coseg
在本文中作者提出了一項新的點云問題,點云同類對象分割,即分割一組場景點云中的同類3D 對象(可以看作是一個二類(前景、背景)分割問題)。作者將此任務(wù)定義為一個對象點采樣問題,并通過相互注意模塊和共同對比學(xué)習(xí)機制實現(xiàn)它。所提出的方法采用基于神經(jīng)網(wǎng)絡(luò)的兩點采樣器,即對象采樣器和背景采樣器。其中前者針對常見物體的采樣,而后者則專注于其他物體。相互注意模塊探索點云之間的逐點相關(guān)性。它嵌入在兩個采樣器中,可以從其他采樣器中識別出具有強行跨越云相關(guān)性的點。在為兩個采樣器選擇的點提取特征后,繼續(xù)通過開發(fā)協(xié)同對比損失函數(shù)來優(yōu)化網(wǎng)絡(luò),這樣可以最小化估計對象點之間的特征差異,同時最大差異化估計對象和背景點之間的特征。該方法適用于任意對象類的點云。它是端到端可訓(xùn)練的,不需要點級注釋。通過在 ScanObjectNN 和 S3DIS 數(shù)據(jù)集上進(jìn)行評估,并取得了有潛力的結(jié)果。本文主要貢獻(xiàn)如下:
1)首次嘗試為點云同類對象分割開發(fā)端到端的可訓(xùn)練網(wǎng)絡(luò)。
2)其次,將點云同類對象分割定義為采樣任務(wù),由提出的相互注意模塊和共同對比學(xué)習(xí)機制來完成最終采樣。
3)第三,作者的方法在兩個真實數(shù)據(jù)集上進(jìn)行了評估,并展示網(wǎng)絡(luò)的潛力。
圖1 無監(jiān)督點云同類對象分割方法概述。該方法的輸入是一組覆蓋公共類別對象的點云(如本例中的椅子)。同時該方法只需要 3D 坐標(biāo)作為輸入。
1、目前存在的問題
基于深度學(xué)習(xí)的點云分割方法大量依賴于帶有點級注釋的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)收集的高注釋成本阻礙了點云分割的效率。
在2D 圖像同類對象分割問題中,可以在沒有附加注釋的情況下分割一組圖像中的常見對象。極大的降低了標(biāo)注成本。然而,如果直接將 2D 圖像同類對象分割技術(shù)應(yīng)用于3D點云是具有挑戰(zhàn)性的,因為它必須解決三個主要問題。
第一,大多數(shù)圖像分割方法依賴于目標(biāo)提議生成器或顯著性檢測器。這些生成器和檢測器適用于圖像像素,但不適用于 3D 點的空間幾何。
第二,與圖像相比,點云是無序和非結(jié)構(gòu)化的。提取的點特征通常不足以進(jìn)行同類對象分割。
第三,大多數(shù) 2D 同類對象分割方法采用預(yù)先在大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的方式,例如 用ImageNet提取高級語義特征。
如圖 1 所示,該方法主要包括三個模塊,分別用于解決上述三個問題。
首先,作者將點云同類對象分割作為一個對象點采樣問題處理。采用了一對點采樣器:對象采樣器針對屬于常見對象的采樣點,而背景采樣器則抓取其余的采樣點。其中,對象和背景采樣器都是在SampleNet網(wǎng)絡(luò)上開發(fā)。
其次,作者開發(fā)了一個相互注意模塊來探索不同點云之間的逐點相關(guān)性,并嵌入到兩個采樣器中使用。識別給定圖像或點云中的常見 2D 像素或 3D 點是同類對象分割的關(guān)鍵部分。為此,該模塊計算跨點云的注意力圖并編譯用于共同分割的信息特征。實驗證明,此模塊的采樣器可實現(xiàn)更好的前景-背景分離。
第三,開發(fā)了一種對比損失函數(shù)來解決缺乏預(yù)訓(xùn)練數(shù)據(jù)和缺乏用于共同分割的監(jiān)督信號的問題。通過最小化對象采樣器采樣的點的特征差異,同時最大化不同采樣器選擇的點之間的特征差異。作者使用這種損失函數(shù)來推導(dǎo)出采樣器及其相關(guān)的相互注意模塊。
2、核心方法
圖2方法概述。網(wǎng)絡(luò)架構(gòu)由兩個相互注意模塊的采樣器 So 和 Sb 以及一個特征提取器 f 組成。
1)問題描述:
針對一組覆蓋未知類別對象的N個點云D。假設(shè)每個云中的點數(shù)為 M,點云同類對象分割就是要發(fā)現(xiàn)包含屬于每個公共對象的所有點的子集。請注意,這里既沒有提供點級注釋,也沒有提供點云級注釋。并且只使用幾何特征(沒有任何 RGB 信息)。圖 2是所提出方法的框架。
圖 3 中給出了關(guān)于相互注意模塊如何嵌入到采樣器 So 和 Sb 中的詳細(xì)過程。它的作用是估計跨點云、逐點的相互相關(guān)性,然后在采樣期間將其考慮在內(nèi)。
圖3相互注意模塊的架構(gòu)
2)物體與背景采樣:
這里作者將點云對象分割定義為前景點采樣問題。基于最近的研究提出了點云采樣的可微松弛。于是作者在 SampleNet 上開發(fā)了對象采樣器 So 和背景采樣器 Sb。具體來說,為了在點云上實現(xiàn)共同分割,作者對 SampleNet 進(jìn)行了三項修改,包括下游任務(wù)、成對競爭采樣器和跨點云注意機制。
其中下游任務(wù)是無監(jiān)督的同類對象分割。由于缺乏數(shù)據(jù)注釋,作者開發(fā)了無監(jiān)督的協(xié)同對比損失,用來優(yōu)化采樣器。模型中的特征提取器 f 來為每個采樣點生成特征。
對于共同分割,目標(biāo)就是將前景點與其他點分開。為此,作者使用對象采樣器 So 和背景采樣器 Sb分別為每個點云 P推斷前景子集On和背景子集Bn。通過使用對比損失函數(shù),采樣器 So 和 Sb 分別傾向于收集前景和背景點。為了進(jìn)一步防止兩個采樣器選擇相同的點,作者還將排斥損失函整合到采樣器訓(xùn)練中,即
其中dc是Chamfer距離,超參數(shù)σ=1控制分離余量。
3)相互注意模型:
受現(xiàn)有方法可以在非本地操作下完成捕獲遠(yuǎn)程依賴項的自注意力模塊的啟發(fā),作者開發(fā)了一個相互注意模塊來發(fā)現(xiàn)跨點云點的相關(guān)性。與探索圖像內(nèi)位置相關(guān)性的自注意力模塊相比,圖3中所示的相互注意力模塊側(cè)重于小量級中點云之間的相互點相關(guān)性。如圖 3 所示,作者還引入了殘差學(xué)習(xí)以獲得更好的性能。
4)共同對比損失:
對比性學(xué)習(xí)近年來已經(jīng)被研究用于無監(jiān)督的表征學(xué)習(xí)。因此為了實現(xiàn)了在點云內(nèi)部和點云之間的對比學(xué)習(xí),作者分別在點和對象兩個層面上實現(xiàn)。對比學(xué)習(xí)的訓(xùn)練數(shù)據(jù)通過增強的方式從一個數(shù)據(jù)實例中生成。
其中點對比損失函數(shù)為:
其中成對相似度是通過使用內(nèi)積來衡量,N 是給定點云的數(shù)量
目標(biāo)對比損失函數(shù)為:
在對象層面,一個數(shù)據(jù)對是由不同的點云創(chuàng)建的。此外,該部分還被用于共同分割,因此,作者將由此產(chǎn)生的目標(biāo)函數(shù)命名為對比損失。
實驗環(huán)節(jié):
數(shù)據(jù)集:
由于點云對象共分割是一項新任務(wù),因此還沒有可用于評估的基準(zhǔn)數(shù)據(jù)集。作者暫時采用的ScanObjectNN 和 S3DIS。
表1在具有不同監(jiān)督級別和設(shè)置的不同方法在 ScanObjectNN 的 OBJ BG 測試集上的分割結(jié)果 (mIoU)。100%、10% 和 1pt 分別表示用 100%、10% 和每個對象類別的單個標(biāo)記點訓(xùn)練的方法。
考慮到本文是第一個用于點云同類對象分割的方法,暫時沒有同類的方法進(jìn)行性能對比。實驗環(huán)節(jié)采用與三種不同監(jiān)督設(shè)置的點云對象分割方法進(jìn)行比較。具體來說,首先,比較了點云分割的全監(jiān)督方法,并將它們作為性能上限的參考。其次,比較了兩種最新的弱監(jiān)督分割方法。他們的目標(biāo)是使用部分點級標(biāo)簽(point-level labels)或云級標(biāo)簽(cloud-level labels)作為弱注釋形式來分割 3D 對象。第三,比較了最新的形狀共同分割方法 AdaCoSeg。
表2 ScanObjectNN 數(shù)據(jù)集上不同變體的分割結(jié)果 (mIoU)。
表3 S3DIS 數(shù)據(jù)集上的分割結(jié)果 (mIoU)
表4 ScanObjectNN 數(shù)據(jù)集的定性結(jié)果。從左到右,從上到下,分別是包、床、垃圾桶、椅子、門、枕頭、架子、水槽、沙發(fā)和桌子。對于每個示例,作者展示了輸入云、真實標(biāo)簽和分割結(jié)果。
表5 S3DIS 數(shù)據(jù)集的定性結(jié)果。作者展示了五個對象類的示例:從上到下分別為書柜、椅子、門、沙發(fā)和桌子,每個類有兩個示例。對于每個例子,展示了輸入點云、真實標(biāo)簽和分割結(jié)果
作者除了評估分割方法本身的效果之外,還對分割結(jié)果嵌入到背景感知網(wǎng)絡(luò)background-aware network (BGA)進(jìn)行分類效果的評價。表 5 顯示使用偽標(biāo)簽進(jìn)行訓(xùn)練可以提高分類準(zhǔn)確率。
表 5:ScanObjectNN PB_T50_RS數(shù)據(jù)上的準(zhǔn)確度(%)
總結(jié):
本文提出了一個點云新問題,即點云同類對象分割問題,并提出了一種無需使用昂貴注釋成本即可解決該問題的方法。此外,作者還證明了該方法可以提供偽標(biāo)簽以改善現(xiàn)實世界數(shù)據(jù)集中的對象分類性能。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。