色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專(zhuān)欄

          EEPW首頁(yè) > 博客 > ICLR2023 | 阿卜杜拉國(guó)王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò):多視圖+點(diǎn)云!(1)

          ICLR2023 | 阿卜杜拉國(guó)王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò):多視圖+點(diǎn)云!(1)

          發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-08-22 來(lái)源:工程師 發(fā)布文章

          多視圖投影方法在 3D 分類(lèi)和分割等 3D 理解任務(wù)上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結(jié)合。

          人類(lèi)視覺(jué)系統(tǒng)更接近于使用多個(gè)視角的間接方法來(lái)理解3D物體,而不是直接處理3D數(shù)據(jù)。相比之下,間接方法通常通過(guò)渲染對(duì)象或場(chǎng)景的多個(gè)2D視圖,并使用基于2D圖像的傳統(tǒng)架構(gòu)來(lái)處理每個(gè)圖像。人類(lèi)視覺(jué)系統(tǒng)更接近于這種多視圖間接方法,因?yàn)樗邮盏降氖卿秩緢D像流,而不是顯式的3D數(shù)據(jù)。

          引入了Voint cloud這個(gè)新的3D數(shù)據(jù)表示形式,并設(shè)計(jì)了VointNet 模型來(lái)學(xué)習(xí)和處理這種表示。Voint cloud將每個(gè)3D點(diǎn)表示為從多個(gè)視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

          作者通過(guò)定義在Voint級(jí)別的池化和卷積操作,構(gòu)建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò)在Voint空間學(xué)習(xí)3D表示。

          簡(jiǎn)介

          多視圖投影方法在 3D 分類(lèi)和分割等 3D 理解任務(wù)上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結(jié)合。以前的方法使用未學(xué)習(xí)的啟發(fā)式方法在點(diǎn)級(jí)別組合特征。

          為此,本文引入了多視點(diǎn)云(Voint cloud)的概念,將每個(gè) 3D 點(diǎn)表示為從多個(gè)視點(diǎn)提取的一組特征。這種新穎的 3D Voint 云表示結(jié)合了 3D 點(diǎn)云表示的緊湊性和多視圖表示的自然視圖感知。自然地,可以為這個(gè)新的表示配備卷積和池化操作。

          通過(guò)部署一個(gè) Voint 神經(jīng)網(wǎng)絡(luò) (VointNet ) 來(lái)學(xué)習(xí)Voint 空間中的表征。學(xué)習(xí)的新穎表示在標(biāo)準(zhǔn)基準(zhǔn)(ScanObjectNN、ShapeNet Core55 和 ShapeNetParts)的 3D 分類(lèi)、形狀檢索和穩(wěn)健的 3D 部件分割方面均實(shí)現(xiàn)了最先進(jìn)的性能。

          圖片

          圖1: 3D Voint clouds。本文提出了多視圖點(diǎn)云(Voint cloud),這是一種新穎的3D表示,它緊湊且自然地描述了3D點(diǎn)云的視圖投影。

          • 3D云中的每個(gè)點(diǎn)都被標(biāo)記為一個(gè)點(diǎn),它會(huì)累積該點(diǎn)的視圖特征。
          • 注意,并非所有的3D點(diǎn)在所有視圖中都可見(jiàn)。Voint 的集合構(gòu)成了一個(gè)Voint cloud。
          筆者個(gè)人體會(huì)

          作者的動(dòng)機(jī)是解決在3D視覺(jué)任務(wù)中如何表示3D數(shù)據(jù)的問(wèn)題。

          • 作者觀(guān)察到在2D計(jì)算機(jī)視覺(jué)中,直接采用圖像作為輸入的方法取得了巨大的成功,而在3D視覺(jué)中,如何表示和處理3D數(shù)據(jù)仍然是一個(gè)挑戰(zhàn)。

            盡管深度學(xué)習(xí)在2D計(jì)算機(jī)視覺(jué)中取得了巨大成功,但在3D視覺(jué)中,如何表示和處理3D數(shù)據(jù)仍然是一個(gè)挑戰(zhàn)。

            3D計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)的一個(gè)基本問(wèn)題是如何表示3D數(shù)據(jù)。深度學(xué)習(xí)在2D計(jì)算機(jī)視覺(jué)領(lǐng)域的成功,它在3D視覺(jué)和圖形領(lǐng)域的廣泛應(yīng)用變得尤為重要。深度網(wǎng)絡(luò)已經(jīng)在多個(gè)3D任務(wù)上取得了成功,包括3D分類(lèi)、3D分割、3D檢測(cè)、3D重建和新穎視圖合成。這些方法可以依賴(lài)于直接的3D表示、圖像上的間接2D投影,或者兩者的混合。直接方法操作通常以點(diǎn)云、網(wǎng)格或體素的形式表示的3D數(shù)據(jù)。

          • 作者認(rèn)為間接的多視圖方法更符合人類(lèi)視覺(jué)系統(tǒng)的工作方式,因?yàn)槿祟?lèi)接收到的是一系列渲染圖像,而不是顯式的3D數(shù)據(jù)。

            人類(lèi)視覺(jué)系統(tǒng)更接近于使用多個(gè)視角的間接方法來(lái)理解3D物體,而不是直接處理3D數(shù)據(jù)。

            相比之下,間接方法通常通過(guò)渲染對(duì)象或場(chǎng)景的多個(gè)2D視圖,并使用基于2D圖像的傳統(tǒng)架構(gòu)來(lái)處理每個(gè)圖像。人類(lèi)視覺(jué)系統(tǒng)更接近于這種多視圖間接方法,因?yàn)樗邮盏降氖卿秩緢D像流,而不是顯式的3D數(shù)據(jù)。

          • 多視圖方法在3D形狀分類(lèi)和分割任務(wù)中已經(jīng)取得了令人印象深刻的性能。然而,在多視圖表示中,如何正確聚合每個(gè)視圖的特征是一個(gè)挑戰(zhàn)。

            使用間接方法處理3D視覺(jué)任務(wù)具有三個(gè)主要優(yōu)勢(shì):(i) 成熟且可遷移的2D計(jì)算機(jī)視覺(jué)模型(如CNN、Transformers等),(ii) 大型和多樣化標(biāo)記圖像數(shù)據(jù)集的預(yù)訓(xùn)練支持(例如ImageNet),(iii) 多視圖圖像提供了豐富的上下文特征,根據(jù)視角提供信息,與幾何3D鄰域特征不同。

            多視圖方法在3D形狀分類(lèi)和分割方面取得了令人印象深刻的性能。然而,多視圖表示(特別是在密集預(yù)測(cè)任務(wù)中)的挑戰(zhàn)在于如何正確地聚合每個(gè)視圖的特征以獲得具有代表性的3D點(diǎn)云。需要進(jìn)行適當(dāng)?shù)木酆喜僮?,以獲得每個(gè)點(diǎn)具有適用于典型點(diǎn)云處理流程的單個(gè)特征。

          • 因此,動(dòng)機(jī)是將多視圖的思想與常用的3D點(diǎn)云表示相結(jié)合,以提高3D理解任務(wù)的性能。

            以前的多視圖方法依賴(lài)于啟發(fā)式方法,例如將像素映射到點(diǎn)后進(jìn)行平均或池化,或者與體素進(jìn)行多視圖融合。然而,這種啟發(fā)式方法存在一些問(wèn)題:(i) 這種方法可能會(huì)匯總來(lái)自不同視角的誤導(dǎo)性預(yù)測(cè)信息。例如,如果一個(gè)對(duì)象從底部視角獨(dú)立處理,而與其他視角結(jié)合時(shí)會(huì)產(chǎn)生錯(cuò)誤的信息。(ii) 視圖缺乏幾何3D信息。

            為了解決這些問(wèn)題,提出了一種新的混合3D數(shù)據(jù)結(jié)構(gòu),它繼承了點(diǎn)云的優(yōu)點(diǎn)(緊湊性、靈活性和3D描述性),并利用了多視圖投影豐富的感知特征。這種新的表示稱(chēng)為多視圖點(diǎn)云(或Voint cloud)。

          核心創(chuàng)新點(diǎn)

          引入了Voint cloud這個(gè)新的3D數(shù)據(jù)表示形式,并設(shè)計(jì)了VointNet 模型來(lái)學(xué)習(xí)和處理這種表示。

          • Voint cloud將每個(gè)3D點(diǎn)表示為從多個(gè)視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

            作者通過(guò)將每個(gè)點(diǎn)表示為從多個(gè)視角提取的特征集合,構(gòu)建了Voint cloud這種新的表示形式。這種表示繼承了點(diǎn)云表示的緊湊性和3D描述能力,并利用了多視圖投影的豐富感知特征。

            Voint cloud是由一組Voint組成的,每個(gè)Voint都是與視圖相關(guān)的特征(視圖特征),對(duì)應(yīng)于3D點(diǎn)云中的相同點(diǎn)。每個(gè)Voint中的視圖特征的數(shù)量可能會(huì)有所不同。

            Voint cloud繼承了顯式3D點(diǎn)云的特性,這有助于學(xué)習(xí)適用于各種視覺(jué)任務(wù)(如點(diǎn)云分類(lèi)和分割)的Voint表示。為了在新的Voint空間上應(yīng)用深度學(xué)習(xí),定義了一些基本操作,如池化和卷積。這些操作允許在Voint云上進(jìn)行特征提取和處理。

          • 作者通過(guò)定義在Voint級(jí)別的池化和卷積操作,構(gòu)建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò)在Voint空間學(xué)習(xí)表示。

            通過(guò)定義在Voint級(jí)別的池化和卷積操作,作者設(shè)計(jì)了VointNet 模型,可以學(xué)習(xí)和處理Voint cloud表示。通過(guò)這種方式,作者旨在提高3D視覺(jué)任務(wù)的性能,并在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中展示出最先進(jìn)的性能。

            基于這些操作,提出了一種實(shí)用方法來(lái)構(gòu)建Voint神經(jīng)網(wǎng)絡(luò),稱(chēng)為VointNet 。VointNet 接受Voint cloud作為輸入,并輸出用于3D點(diǎn)云處理的點(diǎn)云特征。并展示了學(xué)習(xí)這種Voint cloud表示如何在ScanObjectNN和ShapeNet等數(shù)據(jù)集上產(chǎn)生良好的結(jié)果。通過(guò)VointNet 能夠有效地處理和分析3D點(diǎn)云數(shù)據(jù),并為各種任務(wù)提供豐富的特征表示。

          設(shè)計(jì)思路
          • 通過(guò)將每個(gè)點(diǎn)從不同視角的特征進(jìn)行聚合,構(gòu)建一個(gè)點(diǎn)云的緊湊而豐富的表示形式。
          • 作者定義了Voint cloud的數(shù)據(jù)結(jié)構(gòu)和基本操作,并在此基礎(chǔ)上設(shè)計(jì)了VointNet 模型。
          • VointNet 接受Voint cloud作為輸入,輸出適用于3D點(diǎn)云處理的點(diǎn)云特征。
          • 為了實(shí)現(xiàn)這個(gè)方法,作者在大規(guī)模的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)和評(píng)估,并與其他方法進(jìn)行了比較。

          該方法的好處:

          1. 繼承了點(diǎn)云表示的緊湊性和3D描述能力,同時(shí)利用了多視圖投影的豐富感知特征。
          2. 可以利用現(xiàn)有的2D計(jì)算機(jī)視覺(jué)模型和大規(guī)模圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,從而實(shí)現(xiàn)模型的遷移和加速訓(xùn)練過(guò)程。
          3. 通過(guò)Voint cloud的池化和卷積操作,可以更好地融合來(lái)自多個(gè)視角的信息,從而提高3D理解任務(wù)的性能。
          4. 在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,該方法取得了最先進(jìn)的性能,表明它在3D分類(lèi)、檢索和分割等任務(wù)上具有優(yōu)越性能。
          5. 對(duì)于遮擋和旋轉(zhuǎn)等問(wèn)題,該方法也展現(xiàn)出更好的魯棒性。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉