色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > Transformer在計(jì)算機(jī)視覺領(lǐng)域走到哪了?(2)

          Transformer在計(jì)算機(jī)視覺領(lǐng)域走到哪了?(2)

          發(fā)布人:MSRAsia 時(shí)間:2021-05-28 來源:工程師 發(fā)布文章

          Transformer“跨界”視頻任務(wù)

          相對(duì)于圖像的空間信息,視頻還增加了時(shí)序維度的信息。Transformer 可以很好地在空間-時(shí)序維度上進(jìn)行建模,進(jìn)而更好地學(xué)習(xí)圖像與特征中的長距離依賴關(guān)系,有利于視頻相關(guān)任務(wù)的增強(qiáng)與提高。

          視頻修復(fù):Transformer 初嘗試 

          視頻修復(fù)(video inpainting)是一個(gè)旨在通過視頻中已知內(nèi)容來推斷并填補(bǔ)缺失內(nèi)容的經(jīng)典任務(wù)。它在老舊視頻恢復(fù)、去除水印等視頻編輯中有著廣泛應(yīng)用。盡管視頻修復(fù)技術(shù)有很大的應(yīng)用價(jià)值,然而在復(fù)雜變化的多個(gè)視頻幀中找到相關(guān)信息,并生成在圖像空間和時(shí)序上看起來和諧、一致的內(nèi)容,仍然面臨著巨大的挑戰(zhàn)。

          為了解決這樣的問題,微軟亞洲研究院的研究員們利用并重新設(shè)計(jì)了Transformer結(jié)構(gòu),提出了 Spatial-Temporal Transformer Network (STTN)。 相關(guān)論文“Learning Joint Spatial-Temporal Transformations for Video Inpainting”發(fā)表在了 ECCV 2020。

          論文鏈接:https://arxiv.org/abs/2007.10247

          GitHub地址:https://github.com/researchmm/STTN

          13.png

          STTN 模型的輸入是帶有缺失內(nèi)容的視頻幀以及每一幀的掩碼,輸出則是對(duì)應(yīng)的修復(fù)好的視頻幀。如圖6所示,STTN 模型的輸入是帶有缺失內(nèi)容的視頻幀以及每一幀的掩碼,輸出則是對(duì)應(yīng)的修復(fù)好的視頻幀。如圖6所示,STTN 模型采用了 CNN-Transformer 的混合結(jié)構(gòu)。其中,frame-level encoder 以及 frame-level decoder 采用了 CNN,分別將每個(gè)視頻幀從像素編碼成特征以及將特征解碼成視頻幀。Transformer 則作為模型的主干,它將輸入的視頻幀特征切成塊,并對(duì)塊的序列進(jìn)行建模,再通過多層時(shí)空 Transformer 層挖掘輸入幀中的已知信息來推斷缺失內(nèi)容。

          14.png

          圖6: Spatial-Temporal Transformer Network (STTN) 模型結(jié)構(gòu)示意圖

          時(shí)空 Transformer 層繼承了經(jīng)典 Transformer 層強(qiáng)大的注意力機(jī)制,能聚焦于與缺失內(nèi)容相關(guān)的信息上,通過多層的堆疊不斷更新優(yōu)化預(yù)測的內(nèi)容。同時(shí),不同于經(jīng)典 Transformer 層中每個(gè)頭部的是模型采用了固定的塊大小,STTN 為了捕捉到盡可能多的上下文信息,在不同的頭部上采用了不同大小的塊切取方式。因此,當(dāng)缺失區(qū)域的特征不夠豐富時(shí),基于大的塊的注意力機(jī)制可以有效利用較多的已知信息;當(dāng)缺失區(qū)域的特征豐富之后,基于小的塊的注意力機(jī)制有助于模型聚焦更細(xì)微的變化。如圖7所示,通過可視化 STTN 最后一層 Transformer 的注意力圖,可以發(fā)現(xiàn) STTN 為了填補(bǔ)目標(biāo)幀中狗身上的缺失區(qū)域,能夠 “精準(zhǔn)追蹤” 到其他幀里的信息,來修復(fù)缺失區(qū)域。 

          15.png

          圖7:Attention map 的可視化(attention 的部分用黃色高亮)。盡管視頻里狗由于奔跑,在不同的幀里形態(tài)和位置差異較大,但為了填補(bǔ)目標(biāo)幀(target frame)中狗身上缺失的部分,STTN 可以 “精準(zhǔn)追蹤” 到相關(guān)的幀里這只跑動(dòng)的狗。 

          除了 STTN 模型,該論文還提出了用動(dòng)態(tài)和靜態(tài)兩種不同的視頻掩碼來模擬實(shí)際應(yīng)用。動(dòng)態(tài)掩碼指視頻每一幀的掩碼是連續(xù)變化的,用來模擬移除運(yùn)動(dòng)物體的應(yīng)用;而靜態(tài)掩碼不會(huì)隨著視頻變化,用來模擬水印移除。論文通過在 DAVIS 和 Youtube-VOS 數(shù)據(jù)集上定性和定量的分析,驗(yàn)證了 STTN 在視頻修復(fù)任務(wù)上的優(yōu)越性。如視頻1所示,STTN 能夠生成視覺上更真實(shí)的修復(fù)結(jié)果。同時(shí)得益于 STTN 強(qiáng)大的并行建模能力,它也加快了運(yùn)行速度(24.10 fps VS. 3.84 fps)。 

          視頻1:左上為輸入的視頻,其中黃色表示需要掩蓋并重新填補(bǔ)的區(qū)域。右下為STTN的結(jié)果。 

          目標(biāo)跟蹤新范式:基于時(shí)空 Transformer

          視頻目標(biāo)跟蹤(Visual Object Tracking)是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)基礎(chǔ)且頗具挑戰(zhàn)性的任務(wù)。在過去幾年中,基于卷積神經(jīng)網(wǎng)絡(luò),目標(biāo)跟蹤迎來了快速的發(fā)展。然而卷積神經(jīng)網(wǎng)絡(luò)并不擅長建模圖像與特征中的長距離依賴關(guān)系,同時(shí)現(xiàn)有的目標(biāo)跟蹤器或是僅利用了空間信息,亦或是并未考慮到時(shí)間與空間之間的聯(lián)系,造成跟蹤器在復(fù)雜場景下性能的下降。

          如何解決以上問題?微軟亞洲研究院的研究員們提出了一種名為 STARK 的基于時(shí)空 Transformer 的目標(biāo)跟蹤器新范式,將目標(biāo)跟蹤建模為一種端到端的邊界框預(yù)測問題,從而徹底擺脫以往跟蹤器使用的超參敏感的后處理,該方法在多個(gè)短時(shí)與長時(shí)跟蹤數(shù)據(jù)集上都取得了當(dāng)前最優(yōu)的性能。

          相關(guān)論文“Learning Spatio-Temporal Transformer for Visual Tracking”

          鏈接:https://arxiv.org/abs/2103.17154

          GitHub地址:https://github.com/researchmm/stark

          16.png

          STARK 包括 Spatial-Only 和 Spatio-Temporal 兩個(gè)版本,其中 Spatial-Only 版本僅使用空間信息,Spatio-Temporal 版本則同時(shí)利用了時(shí)間和空間信息。 

          Spatial-Only 版本的框架圖如圖8所示。首先,第一幀的模板和當(dāng)前幀的搜索區(qū)域會(huì)一同送入骨干網(wǎng)絡(luò)提取視覺特征,然后特征圖沿空間維度展開并拼接,進(jìn)而得到一個(gè)特征序列。之后,Transformer 編碼器會(huì)建模序列元素之間的全局關(guān)聯(lián),并利用學(xué)習(xí)到的全局信息來強(qiáng)化原始特征,使得新的特征序列對(duì)目標(biāo)具有更強(qiáng)的判別力。受 DETR 的啟發(fā),研究員們使用了一個(gè)****以及一個(gè)目標(biāo)查詢(Target Query)來對(duì)編碼器的輸出進(jìn)行譯碼。目標(biāo)查詢與前面提到的編碼器輸出的特征序列進(jìn)行交互,從而學(xué)習(xí)到和目標(biāo)相關(guān)的重要信息。最后,編碼器輸出的特征序列以及譯碼器輸出的新的目標(biāo)查詢特征再一同送入邊界框預(yù)測模塊,得到最終的邊界框坐標(biāo)。 

          17.png

          圖8:Spatial-Only 版本的框架圖 

          邊界框預(yù)測模塊的結(jié)構(gòu)如圖9所示,首先從編碼器的輸出序列中取出搜索區(qū)域相關(guān)的特征,用該特征序列與譯碼器輸出的目標(biāo)查詢特征計(jì)算一次注意力機(jī)制,強(qiáng)化目標(biāo)所在區(qū)域的特征,削弱非目標(biāo)區(qū)域的特征。然后,經(jīng)注意力機(jī)制強(qiáng)化后的搜索區(qū)域特征序列的空間結(jié)構(gòu)被還原,并通過簡單的全卷積網(wǎng)絡(luò)預(yù)測目標(biāo)左上角和右下角一對(duì)角點(diǎn)(corners)的熱力圖,最終的角點(diǎn)坐標(biāo)則通過計(jì)算角點(diǎn)坐標(biāo)的數(shù)學(xué)期望得到。不同于之前的Siamese和DCF方法,該框架將目標(biāo)跟蹤建模為一個(gè)直接的邊界框預(yù)測問題,每一幀上都可直接預(yù)測一個(gè)邊界框坐標(biāo),無需使用任何超參敏感的后處理。

          18.png

          圖9:邊界框預(yù)測模塊的結(jié)構(gòu)

          Spatio-Temporal 版本的框架圖如圖10所示,粉色區(qū)域展示了為了利用時(shí)序信息而新加入的結(jié)構(gòu)。新框架額外加入了一個(gè) “動(dòng)態(tài)模板” 作為新輸入。動(dòng)態(tài)模板是根據(jù)中間幀跟蹤結(jié)果裁剪得到的,并隨著跟蹤的進(jìn)行動(dòng)態(tài)更新,為整個(gè)框架補(bǔ)充了之前缺少的時(shí)序信息。利用第一幀模板、當(dāng)前幀搜索區(qū)域、動(dòng)態(tài)模板同時(shí)作為 Transformer 編碼器的輸入,編碼器能夠從全局視角提取時(shí)空信息,學(xué)習(xí)到魯棒的時(shí)空聯(lián)合表示。除動(dòng)態(tài)模板之外,研究員們還引入了由多層感知機(jī)實(shí)現(xiàn)的更新控制器來更新動(dòng)態(tài)模板,它與邊界框預(yù)測頭并聯(lián),以預(yù)測當(dāng)前幀可靠程度的置信度分?jǐn)?shù)。 

          19.png

          圖10:Spatio-Temporal 版本框架圖 

          STARK 在多個(gè)短時(shí)跟蹤與長時(shí)跟蹤數(shù)據(jù)集上都取得了目前最先進(jìn)的性能,并且運(yùn)行速度可達(dá) 30FPS 到 40FPS。其中,在 LaSOT, GOT-10K, TrackingNet 三個(gè)大規(guī)模目標(biāo)跟蹤數(shù)據(jù)集上的結(jié)果如下所示。 

          20.png

          圖11:LaSOT 數(shù)據(jù)集上的結(jié)果比較

          21.png

          表格6:GOT-10K 數(shù)據(jù)集上的結(jié)果比較

          22.png

          表格7:TrackingNet 數(shù)據(jù)集上的結(jié)果比較 

          上述四個(gè)工作將 Transformer 結(jié)構(gòu)成功地應(yīng)用于圖像內(nèi)容增強(qiáng)和視頻內(nèi)容分析, 充分地展現(xiàn)了 Transformer 的優(yōu)勢和潛力。目前研究員們已經(jīng)看到,無論是在圖像分類、物體檢測與分割等基礎(chǔ)視覺任務(wù)上,還是在 3D 點(diǎn)云分析、圖像視頻內(nèi)容生成等新興課題中,Transformer 都大放異彩。未來,視覺 Transformer 結(jié)構(gòu)的設(shè)計(jì)和自動(dòng)化搜索將會(huì)是一個(gè)非常具有前景的研究課題。相信 Transformer 結(jié)構(gòu)在計(jì)算機(jī)視覺領(lǐng)域會(huì)繼續(xù)展現(xiàn)其強(qiáng)大的模型潛力。

          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

          光電開關(guān)相關(guān)文章:光電開關(guān)原理


          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉