色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > CVPR 2022: GroupViT 基于文本監(jiān)督的語義分割算法

          CVPR 2022: GroupViT 基于文本監(jiān)督的語義分割算法

          發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2022-10-19 來源:工程師 發(fā)布文章
          作者丨Garfield

          來源丨 GiantPandaCV
          1. 論文信息

          標(biāo)題:GroupViT: Semantic Segmentation Emerges from Text Supervision

          作者:Jiarui Xu, Shalini De Mello, Sifei Liu, Wonmin Byeon, Thomas Breuel, Jan Kautz, Xiaolong Wang

          原文鏈接:https://openaccess.thecvf.com/content/CVPR2022/html/Xu_GroupViT_Semantic_Segmentation_Emerges_From_Text_Supervision_CVPR_2022_paper.html

          代碼鏈接:https://github.com/NVlabs/GroupViT

          2. 介紹

          CLIP是近年來在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練,模型的Zero-shot性能非常可觀,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。簡(jiǎn)單來說,CLIP的high-level的idea非常直接,就是通過對(duì)比學(xué)習(xí),對(duì)圖像特征空間和文本特征空間進(jìn)行對(duì)齊,給定任意圖像和文本都可以映射到這個(gè)空間中,然后這些圖像和文本就可以直接計(jì)算相似度。通過這種方式,CLIP填平了文本和視覺信息的gap。

          CLIP是基于分類任務(wù)完成的,那么相應(yīng)的,我們就不免思考其在檢測(cè)和分割領(lǐng)域能否也發(fā)揮比較好的效果。如何不依賴于手工標(biāo)注的分割標(biāo)注,如何能真真的做到去用文本來作為監(jiān)督信號(hào)來指導(dǎo)模型訓(xùn)練,就是非常值得思考的一個(gè)問題。下面我們就來介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法。

          圖片

          對(duì)于傳統(tǒng)做分割的模型的一種方法就是通過像素相似度進(jìn)行語義分割。

          首先在圖上找一些中心點(diǎn),然后通過像素相似然后將附近像素給到不同的目標(biāo)區(qū)域,最終獲得segmentation mask區(qū)域。如上圖所示,為了實(shí)現(xiàn)擺脫手工標(biāo)注這一目標(biāo),論文提出將分割中經(jīng)典的group機(jī)制引入到深度網(wǎng)絡(luò)中,通過這種機(jī)制,語義的信息段可以在只需要文本監(jiān)督的情景下自動(dòng)出現(xiàn)。

          通過對(duì)具有對(duì)比損失的大規(guī)模成對(duì)vision-language數(shù)據(jù)進(jìn)行訓(xùn)練,我們可以將模型zero-shot轉(zhuǎn)移到多個(gè)語義分割到word table中,而不需要進(jìn)一步的注釋或微調(diào)。

          總結(jié)論文的貢獻(xiàn)如下:

          • 在深度網(wǎng)絡(luò)中,我們超越了規(guī)則形狀的圖像網(wǎng)格,引入了一種新的Group ViT體系結(jié)構(gòu),將視覺概念分層自下而上地分組為不規(guī)則形狀的組。
          • 在不依賴任何像素級(jí)的標(biāo)注情況下,只采用圖像級(jí)文本監(jiān)督,成功地學(xué)會(huì)了將圖像區(qū)域分組,并以zero-shot的模式遷移到多個(gè)語義分割詞匯表。
          • 本文是第一份在不使用任何像素標(biāo)簽的情況下探索從文本監(jiān)督到多個(gè)語義分割任務(wù)的零鏡頭轉(zhuǎn)移的工作,并為這一新任務(wù)建立了堅(jiān)實(shí)的基線。

            3. 方法
          圖片

          如上圖所示,本文提出的結(jié)構(gòu)在ViT基礎(chǔ)上進(jìn)行設(shè)計(jì),是一個(gè)dual-encoder的結(jié)構(gòu)。訓(xùn)練過程主要分為三部:

          第一步:把原始的image作為輸入,利用ViT結(jié)構(gòu)的encoder進(jìn)行圖像編碼。將圖像分成若干個(gè)patch之后,將每個(gè)patch作為path embedding的向量信息,構(gòu)建出  部分的數(shù)據(jù)矩陣,然后利用線性層映射出一個(gè)embedding的數(shù)據(jù)。然后將圖像中的不同patch得到的embedding進(jìn)行分類,構(gòu)建出64*384大小的group token矩陣塊。

          這里有兩種實(shí)現(xiàn)的方式,第一種,對(duì)于2-stage類型的GroupViT,

          • 在GroupViT的第一階段,經(jīng)過Transformer layers操作后可以得到64個(gè)group tokens,然后在6層Transformer層后插入grouping block。
          • 在GroupViT的第二階段,grouping之后,都會(huì)得到8個(gè)segment tokens。對(duì)于1-stage類型的GroupViT,就非常簡(jiǎn)單直接了,在grouping block之前,將64個(gè)group tokens通過MLP-Mixer layer映射成8個(gè)segment tokens。然后Grouping Block將學(xué)到的group tokens 和image segment tokens作為輸入,通過Grouping Block更新image tokens,利用這些tokens將相似的images歸并到一起。每經(jīng)過一個(gè)grouping stage,能夠得到更大更少的image segments。
          圖片

          第二步:基于上一步輸出的8384的group token后把文本數(shù)據(jù)和得到的數(shù)據(jù)聯(lián)合進(jìn)行訓(xùn)練。為了和Text信息進(jìn)行關(guān)聯(lián),能夠機(jī)選Clip的內(nèi)積,需要把8維映射為1維,為了方便簡(jiǎn)單,論文直接用avg pooling處理;

          論文的訓(xùn)練loss有兩項(xiàng),包括image-text loss和multi-label contrastive loss with text prompting。

          image-text loss包括image to text和text to image兩項(xiàng):

          圖片圖片

          multi-label contrastive loss with text prompting涉及到較為復(fù)雜的操作,可以參考原文進(jìn)一步了解:

          圖片

          第三步:通過設(shè)計(jì)好的GroupViT結(jié)構(gòu),模型能夠自動(dòng)將image分組成一個(gè)個(gè)的segment,所以可以很容易的zero-shot transfer到語義分割任務(wù)上,而不需要微調(diào)。由于GroupViT自動(dòng)將圖像分組為語義相似的片段,它的輸出可以很容易地轉(zhuǎn)移到語義分割,而無需進(jìn)一步的微調(diào)。如圖4所示。為了推斷圖像的片段屬于對(duì)象類的有限詞匯table,論文通過Group VIT來傳遞一個(gè)測(cè)試圖像,而不對(duì)其最終的L輸出段應(yīng)用AvgPool,并得到每個(gè)片段的嵌入為。每個(gè)段標(biāo)記對(duì)應(yīng)于輸入圖像的任意形狀的區(qū)域。然后,我們計(jì)算每個(gè)段標(biāo)記的嵌入與數(shù)據(jù)集中所有語義類的文本嵌入之間的相似性。我們將每個(gè)圖像片段分配給圖像文本embedding相似度最高的語義類定為最終分割結(jié)果。

          4. 實(shí)驗(yàn)結(jié)果

          圖片

          在無監(jiān)督的情況下,自然是相較于其他的對(duì)比學(xué)習(xí)方式有了比較明顯的提升,但顯然和有監(jiān)督的setting表現(xiàn)還是有一定的gap的(如VOC可以達(dá)到80%+),由此可見,無監(jiān)督的語義分割還是有一定進(jìn)步的空間的。

          圖片

          為了將CLIP zero-shot轉(zhuǎn)換為語義分割,在推理過程中首先對(duì)其輸出特征進(jìn)行non-parametric的分組。然后計(jì)算每組的特征均值與數(shù)據(jù)集分割標(biāo)簽的文本embeddings之間的相似度。這樣,任何結(jié)合CLIP的ViT非參數(shù)分組方法都可以被認(rèn)為是一個(gè)零鏡頭的語義分割基線。如表4所示,分組ViT的性能大大優(yōu)于其他分組方法。這表明,與使用CLIP訓(xùn)練的ViT相比,我們的GroupViT在zero-shot轉(zhuǎn)換到語義分割方面更有效。

          5. 結(jié)論

          本文邁出了學(xué)習(xí)零樣本語義分割的第一步,也是重要一步,在只有文本,沒有任何明確的人類標(biāo)注的監(jiān)督下進(jìn)行自監(jiān)督。我們證明,使用GroupViT,從大規(guī)模噪聲圖像-文本對(duì)中學(xué)習(xí)到的表示可以以零鏡頭的方式轉(zhuǎn)移到語義分割。這項(xiàng)工作也證明了除了圖像分類之外,文本監(jiān)督也可以轉(zhuǎn)移到更細(xì)粒度的視覺任務(wù)中,這是以前沒有探索過的,開辟了一個(gè)非常有趣的研究方向。


          本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉