CVPR 2022 | 一鍵解鎖微軟亞洲研究院計(jì)算機(jī)視覺領(lǐng)域前沿進(jìn)展!
01
基于神經(jīng)壓縮的視頻復(fù)原論文鏈接:https://arxiv.org/abs/2203.09208
視頻復(fù)原任務(wù)非常依賴時(shí)序特征來獲得更好的重建質(zhì)量。現(xiàn)有的視頻復(fù)原方法主要關(guān)注如何設(shè)計(jì)更好的網(wǎng)絡(luò)結(jié)構(gòu)去提取時(shí)序特征,例如雙向傳播。至于如何有效使用時(shí)序特征并和當(dāng)前幀融合,通常容易被忽視。實(shí)際上時(shí)序特征通常包含大量噪聲和不相關(guān)的信息,直接使用而不經(jīng)過任何特征提純,反而會干擾當(dāng)前幀的復(fù)原。
為此,微軟亞洲研究院的研究員們提出了一種基于神經(jīng)壓縮的算法來學(xué)習(xí)高效的時(shí)序特征表達(dá)。由于神經(jīng)壓縮為了節(jié)省比特會把無關(guān)的信息或者噪聲丟棄,是個(gè)天然的去噪者,因此本文利用神經(jīng)壓縮去有效地過濾噪聲的干擾并保留時(shí)序上最重要的信息。如圖1 (b) 所示, 研究員們會在特征融合之前,使用神經(jīng)壓縮去對時(shí)序特征提純。為了實(shí)現(xiàn)對噪聲的魯棒性,本文為壓縮模塊設(shè)計(jì)了一種自適應(yīng)并且可學(xué)習(xí)的量化機(jī)制,以便有效處理不同類別和不同程度的噪聲干擾。在訓(xùn)練過程中,交叉熵?fù)p失函數(shù)和重建損失函數(shù)會引導(dǎo)量化模塊的學(xué)習(xí)。
圖1 (c) 展示了本文模型所學(xué)的特征有更強(qiáng)的噪聲魯棒性,并且更接近來自干凈視頻的特征。實(shí)驗(yàn)表明,這種特征學(xué)習(xí)方式幫助本文的模型在多個(gè)視頻恢復(fù)任務(wù)中取得了最好的性能,包括視頻去噪、視頻去雨和視頻去霧。而且本文的方法在復(fù)雜度上也優(yōu)于之前最好的方法。尤其是在視頻去噪任務(wù)上,本文的方法比 BasicVSR++ 提高了0.13 dB, 并且只有它0.23倍的復(fù)雜度。
圖1:(a) 已有的視頻復(fù)原框架,(b) 本文提出的基于神經(jīng)壓縮的視頻復(fù)原框架,(c) t-SNE 可視化對比,(d) 性能對比
02
基于神經(jīng)輻射流形的三維可控圖像生成
論文鏈接:https://yudeng.github.io/GRAM/
傳統(tǒng)的生成對抗網(wǎng)絡(luò)(GAN)已經(jīng)具備生成以假亂真二維圖像的能力。但它們并不考慮生成圖像中物體背后的三維幾何性質(zhì),因此無法生成物體的多視角圖像。近兩年,一些能夠?qū)崿F(xiàn)三維視角控制的生成對抗網(wǎng)絡(luò)逐漸出現(xiàn)。給定一類物體的單視角圖像集作為訓(xùn)練數(shù)據(jù),這些方法可以利用圖像上的對抗學(xué)習(xí)過程生成物體的多視角圖像。實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵因素是將物體的三維表達(dá)與圖像生成過程相結(jié)合,其中最先進(jìn)的方法利用了神經(jīng)輻射場(NeRF)作為物體表達(dá)。
然而,已有的、基于 NeRF 的生成對抗網(wǎng)絡(luò)的圖像生成質(zhì)量與傳統(tǒng)的二維圖像生成對抗網(wǎng)絡(luò)仍有較大的差距。研究員們觀察到,造成這一問題的一個(gè)重要原因是 NeRF 的體渲染過程與對抗學(xué)習(xí)過程相結(jié)合時(shí)內(nèi)存開銷較大,限制了體渲染時(shí)每條光線允許的采樣點(diǎn)個(gè)數(shù)。在采樣點(diǎn)數(shù)量有限時(shí),NeRF 表征不能有效的處理物體的精細(xì)幾何紋理,且其渲染圖像中含有明顯的噪聲圖案,嚴(yán)重影響了對抗學(xué)習(xí)過程的穩(wěn)定性。
本文提出了一種新型的神經(jīng)輻射流形表達(dá)來解決 NeRF 與對抗學(xué)習(xí)結(jié)合時(shí)的上述問題。神經(jīng)輻射流形將輻射場的學(xué)習(xí)與圖像渲染時(shí)的采樣點(diǎn)限制在三維空間中的一簇二維曲面流形上,有助于網(wǎng)絡(luò)在曲面上學(xué)習(xí)物體的精細(xì)結(jié)構(gòu),并有效避免了圖像渲染時(shí)的噪聲圖案。實(shí)驗(yàn)表明,基于神經(jīng)輻射流形表征,研究員們極大地提高了生成圖像的真實(shí)感與其視角變化下的三維一致性。
圖2:基于神經(jīng)輻射流形的圖像生成過程示意圖
03
StyleSwin – 用Transformer搭建適于高質(zhì)量圖像生成的的生成對抗網(wǎng)絡(luò) 論文鏈接:https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/
以生成對抗網(wǎng)絡(luò)為代表的圖像生成模型在過去幾年間取得了巨****展。其早期的研究主要集中在讓對抗訓(xùn)練更加穩(wěn)定,而近年來生成質(zhì)量的突破則主要受益于更具表達(dá)能力的網(wǎng)絡(luò)的提出,如引入注意力機(jī)制、采用更大的網(wǎng)絡(luò)以及 Style-based 生成器。
近期,Transformer 獲得了極大的關(guān)注,并在一系列判別任務(wù)中取得巨大成功。受此啟發(fā),微軟亞洲研究院的研究員們嘗試探究 Transformer 的一系列優(yōu)異特性,尤其是長距離建模能力,是否對生成任務(wù)也有幫助。而構(gòu)建基于 Transformer 的生成器網(wǎng)絡(luò),就需要克服在高分辨率圖像生成時(shí)計(jì)算復(fù)雜度過高的問題。為此研究員們采用了微軟亞洲研究院提出的 Swin Transformer 作為基本模塊,以在計(jì)算復(fù)雜度和模型表達(dá)能力間取得良好的平衡。
研究員們還進(jìn)一步提出了若干改進(jìn),使得 Swin Transformer 可以更好的適配圖像生成任務(wù)。首先,整個(gè)生成器采用了 Style-based 結(jié)構(gòu),并探究若干種適于 Transformer 模塊的風(fēng)格注入機(jī)制。其次,研究員們提出用 double attention 來代替 Swin Transformer 中的重疊窗口,使得每一層 Transformer 模塊有更大的注意力范圍。此外,研究員們指出對于生成模型,有必要同時(shí)采用相對位置編碼和絕對位置編碼。
圖3:(左)StyleSwin 網(wǎng)絡(luò)結(jié)構(gòu),(右)256x256生成結(jié)果穩(wěn)定超越 StyleGAN
更重要的,研究員們發(fā)現(xiàn)局部窗口內(nèi)計(jì)算注意力會有產(chǎn)生類似于 DCT 壓縮時(shí)的塊狀瑕疵(blocking artifact),這個(gè)問題僅在生成任務(wù)中才會被注意到。為此,研究員們提出了基于小波變換的判別器模型在頻域空間識別這種塊狀瑕疵的方法,有效提升了肉眼感知下的生成質(zhì)量。
本文提出的 StyleSwin 在若干數(shù)據(jù)集,F(xiàn)FHQ, CelebA-HQ, LSUN church, LSUN car等標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了有競爭力的生成質(zhì)量。在256x256分辨率上,StyleSwin 超越了現(xiàn)有所有 GAN 的方法,在1024x1024分辨率上取得和 StyleGAN2 相當(dāng)?shù)膱D像質(zhì)量。本文的意義在于首次驗(yàn)證了 Transformer 模型在高分辨率、高質(zhì)量圖像生成任務(wù)中的有效性,對生成網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)的發(fā)展做出了新的啟發(fā)。
04
基于量化去噪擴(kuò)散模型的圖像到文本生成
論文鏈接:https://arxiv.org/abs/2111.14822
文本到圖像的生成是近些年來的一個(gè)熱點(diǎn)生成問題。之前的相關(guān)工作主要分為生成對抗網(wǎng)絡(luò)和自回歸模型兩大類。生成對抗網(wǎng)絡(luò)受限于擬合能力,往往只能擬合單個(gè)場景或者類別的圖像。自回歸模型則將圖像生成問題轉(zhuǎn)換成了序列化生成問題,然而,該方法具有單向偏差、誤差累積的問題,并且生成圖像的速度較慢。本文提出了一種新型生成模型,量化去噪擴(kuò)散模型(VQ-Diffusion),該方法能很好地解決以上問題。具體來說,該方法首先利用矢量量化變分自編碼器(VQVAE)將圖像編碼成離散編碼,再利用條件化的去噪擴(kuò)散模型(DDPM)擬合隱空間的分布。
與連續(xù)空間的量化去噪模型不同,為了擬合離散的數(shù)據(jù)分布,研究員們利用概率轉(zhuǎn)移矩陣而不是高斯噪聲,在去噪擴(kuò)散模型的加噪步驟中對目標(biāo)分布加噪。具體來說,本文提出了遮擋與替換的加噪策略,可以成功地避免誤差累積的問題。此外,通過利用雙向注意力機(jī)制進(jìn)行去噪,該方法避免了單向偏差的問題。本文還提出了給離散擴(kuò)散模型加上重參數(shù)化技巧,從而有效地平衡生成速度和圖像質(zhì)量。量化去噪擴(kuò)散模型的示意圖如圖4所示:
圖4:VQ-Diffusion 的算法流程圖
本文在很多文本到圖像生成的數(shù)據(jù)集上做了實(shí)驗(yàn),包括 CUB-200,Oxford-102,以及 MSCOCO。與自回歸模型相比,采用相似參數(shù)量時(shí),量化擴(kuò)散模型能在生成速度快15倍的情況下,獲得更好的生成結(jié)果。與之前基于生成對抗網(wǎng)絡(luò)的文本到圖像生成的方法相比,該算法則能處理更復(fù)雜的場景,極大提升生成圖像的質(zhì)量。此外,該方法還具有普適性,可用于無條件圖像生成(如 FFHQ)和條件圖像生成(如 ImageNet)。
05
基于多模態(tài)遷移學(xué)習(xí)的手語翻譯模型論文鏈接:https://arxiv.org/abs/2203.04287
全世界有7000萬聾人在使用著200多種手語,研究手語翻譯(SLT)有助于增進(jìn)聾人和聽人之間的溝通。近幾年來,機(jī)器手語翻譯(SLT)遵循機(jī)器文本(NMT)翻譯框架,采用編碼-****架構(gòu)將視覺信號翻譯成自然語言。然而,與 NMT 的成功相比,SLT 存在著數(shù)據(jù)稀缺的問題。為了解決這個(gè)問題,本文提出了一個(gè)簡單有效的多模態(tài)遷移學(xué)習(xí)手語翻譯模型,采用逐步預(yù)訓(xùn)練的方法:先后將模型在通用域和域內(nèi)數(shù)據(jù)集上訓(xùn)練。通過從現(xiàn)有數(shù)據(jù)集中遷移知識,研究員們希望可以減少對數(shù)據(jù)的依賴。研究員們使用手語轉(zhuǎn)寫標(biāo)注(Gloss)作為中間表示,將 SLT 分解為 Sign2Gloss 和 Gloss2Text,以便可以在兩個(gè)域上分別對視覺和語言模塊進(jìn)行預(yù)訓(xùn)練。
圖5:研究員們將手語翻譯拆分成為視覺任務(wù)(左側(cè))和語言任務(wù)(右側(cè)),并用一個(gè)視覺-語言映射器(V-L Mapper)來連接兩個(gè)任務(wù),之后分別對視覺和語言網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)遷移學(xué)習(xí),最后對整個(gè)模型進(jìn)行聯(lián)合訓(xùn)練。
本文的模型包括:一個(gè)用于提取視頻特征的視覺模塊、一個(gè)將視頻特征翻譯成文本的語言模塊和一個(gè)連接以上兩個(gè)模塊的視覺-語言映射器。對于視覺模塊,研究員們首先在 Kinetics-400(動作識別數(shù)據(jù)集)和 WLASL(美國手語單詞識別數(shù)據(jù)集)上預(yù)訓(xùn)練 S3D 網(wǎng)絡(luò),之后在目標(biāo)數(shù)據(jù)集上以 Sign2Gloss 為訓(xùn)練任務(wù)進(jìn)一步訓(xùn)練視覺編碼器。對于語言模塊,研究員們使用了在大規(guī)模文本語料庫上預(yù)訓(xùn)練過的 mBART 模型,之后在目標(biāo)數(shù)據(jù)上利用 Gloss2Text 進(jìn)一步訓(xùn)練語言模塊。利用一個(gè)由兩層 MLP 組成的 V-L 映射器,研究員們將視覺特征變換到了翻譯網(wǎng)絡(luò)的輸入中。這樣,兩個(gè)預(yù)訓(xùn)練模塊通過視覺特征連接起來,整個(gè)模型將可以實(shí)現(xiàn)聯(lián)合訓(xùn)練。
本文的模型大幅超過了之前的手語翻譯方法:在 Phoenix-2014T 和 CSL-Daily 上分別達(dá)到了28.4和23.9的 BLEU-4。此外,本文也進(jìn)行了消融實(shí)驗(yàn)來驗(yàn)證了該遷移學(xué)習(xí)策略的有效性。
06
重新思考對比學(xué)習(xí)中的最小充分表示論文鏈接:https://arxiv.org/abs/2203.07004
作為一種自監(jiān)督學(xué)習(xí)方法,對比學(xué)習(xí)近年來被當(dāng)作預(yù)訓(xùn)練的主要方法廣泛應(yīng)用于視頻和圖像領(lǐng)域。由于對比學(xué)習(xí)使用數(shù)據(jù)的不同“視角”互相監(jiān)督,學(xué)習(xí)到的數(shù)據(jù)表示往往只包含“視角”之間的的共享信息,而排斥它們的非共享信息。換言之,對比學(xué)習(xí)最終的結(jié)果是學(xué)習(xí)到了不同“視角”之間的最小充分表示。這樣就產(chǎn)生了一個(gè)疑問——被排斥掉的非共享信息是不是包含對下游任務(wù)有貢獻(xiàn)的內(nèi)容?由于“視角”的產(chǎn)生高度依賴增強(qiáng)方法,而下游任務(wù)相關(guān)的信息在預(yù)訓(xùn)練階段往往是缺失的,所以從直觀上看這種可能性的確存在。
通過從信息論方面進(jìn)行嚴(yán)謹(jǐn)?shù)耐评碜C明和實(shí)驗(yàn)驗(yàn)證,微軟亞洲研究院的研究員們發(fā)現(xiàn)最小充分表示排斥的非共享信息中確實(shí)包含下游任務(wù)相關(guān)的有用信息,從而揭示了對比學(xué)習(xí)有過擬到“視角”共享信息的風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)會嚴(yán)重降低預(yù)訓(xùn)練模型的通用性和在下游任務(wù)上的性能。為此,研究員們認(rèn)為對比學(xué)習(xí)應(yīng)該學(xué)習(xí)“視角”之間的充分表示而不是最小充分表示,并且提出了一種簡單有效而且通用的方法:增加對比學(xué)習(xí)中“視角”之間的互信息。簡單來說,就是在學(xué)習(xí)“視角”共享信息的同時(shí),也盡可能學(xué)習(xí)下游任務(wù)相關(guān)的非共享信息。在此基礎(chǔ)上,研究員們提出了兩種通用的預(yù)訓(xùn)練策略,一種是通過重構(gòu)輸入數(shù)據(jù)引入更多的原始輸入信息達(dá)到增加非共享信息的目的;另一種是通過加入正則項(xiàng)計(jì)算互信息的下限來直接提高互信。大量的實(shí)驗(yàn)結(jié)果表明,我們提出的預(yù)訓(xùn)練策略在分類,檢測和分割等一系列下游任務(wù)中都極大地提高了精度。
圖6:對比學(xué)習(xí)中充分表示和最小充分表示的信息分布圖
07
SimMIM:一個(gè)簡單的圖像掩碼建??蚣?/strong>
論文鏈接:https://arxiv.org/abs/2111.09886代碼地址:https://github.com/microsoft/SimMIM
掩碼信號建模(Masked Signal Modeling)是一種通過利用部分可見信息來預(yù)測不可見信息的預(yù)訓(xùn)練方法。其在自然語言處理(NLP)領(lǐng)域中的應(yīng)用——掩碼語言建模(Masked Language Modeling, MLM)已經(jīng)成為了 NLP 領(lǐng)域中最具代表性且應(yīng)用最廣泛的預(yù)訓(xùn)練方法。
事實(shí)上,在計(jì)算機(jī)視覺領(lǐng)域也出現(xiàn)了一系列使用掩碼圖像建模(Masked Image Modeling, MIM)來進(jìn)行視覺模型預(yù)訓(xùn)練的嘗試,但之前的方法往往需要引入額外的設(shè)計(jì)。本文中,研究員們提出了一種簡單的預(yù)訓(xùn)練框架 SimMIM,證明了僅使用簡單的隨機(jī)掩碼策略以及單層線性****來恢復(fù)原始圖像信號就可以實(shí)現(xiàn)良好的視覺模型預(yù)訓(xùn)練,并學(xué)習(xí)到高質(zhì)量的圖像表征。
圖7:SimMIM 使用簡單的隨機(jī)掩碼策略和一個(gè)輕量的單層線性****來重構(gòu)圖像的原始信號,并使用簡單的 l1 損失函數(shù)進(jìn)行預(yù)訓(xùn)練。
SimMIM 可以適配任意的基礎(chǔ)網(wǎng)絡(luò),包括 ViT,Swin 以及 ConvNets。如圖8(左)所示,在使用 ViT-B 時(shí),SimMIM 取得了比其他方法更好的微調(diào)性能,同時(shí)花費(fèi)的訓(xùn)練成本更低。
圖8:(左)SimMIM 與其他方法在使用 ViT-B 時(shí)的性能比較。(右)SimMIM 在使用 Swin 時(shí)與有監(jiān)督預(yù)訓(xùn)練(Supervised Pre-training)的比較。
圖8(右)則展示了 SimMIM 在使用 Swin 時(shí)取得了比有監(jiān)督預(yù)訓(xùn)練(Supervised pre-training)更好的性能,并且模型越大,SimMIM 的優(yōu)勢就越明顯,這說明 SimMIM 是一個(gè)良好的模型擴(kuò)展學(xué)習(xí)器(model scalable learner)。通過使用 SimMIM,具有3B參數(shù)量的 Swin-G 可以在 ImageNet-1K 圖像分類任務(wù)中取得90.2%的 Top-1 Acc。
SimMIM 不僅適用于基于 Transformer 的網(wǎng)絡(luò),其對 ConvNets 也同樣有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc,高于有監(jiān)督預(yù)訓(xùn)練獲得的80.7%的結(jié)果。這些實(shí)驗(yàn)證明了 SimMIM 的廣泛適用性。
08
學(xué)習(xí)軌跡感知Transformer的視頻超分辨率網(wǎng)絡(luò) 論文鏈接:https://arxiv.org/abs/2204.04216代碼鏈接:https://github.com/researchmm/TTVSR
視頻超分辨率(VSR)旨在從低分辨率(LR)的對應(yīng)幀中恢復(fù)高分辨率(HR)的視頻幀。盡管如今視頻超分辨率領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但是在如何有效利用整個(gè)視頻的時(shí)間信息方面仍然存在著巨大的挑戰(zhàn)?,F(xiàn)有的方法通常通過對齊和聚合短距離相鄰幀(如5或7幀)的信息來生成高分辨率的幀,所以無法獲得令人滿意的結(jié)果。
本文提出了一種新穎的軌跡感知的 Transformer 來執(zhí)行視頻超分任務(wù)(TTVSR),該方法通過引入運(yùn)動軌跡進(jìn)一步探索了視頻中更有效的空間和時(shí)間上的信息學(xué)習(xí)方法。具體來說,TTVSR 將整個(gè)視頻中的幀作為視覺特征,并將時(shí)空中一些連續(xù)的視覺特征定義為一些在內(nèi)容上預(yù)先對齊的時(shí)空軌跡,對于其中的每個(gè) query,自注意力機(jī)制只是沿著預(yù)先定義的時(shí)空軌跡來執(zhí)行。為了實(shí)現(xiàn)上述軌跡的建模,研究員們提出了巧妙的位置圖機(jī)制,該機(jī)制通過對預(yù)先定義的視覺特征的坐標(biāo)位置圖執(zhí)行運(yùn)動變換,來達(dá)到建模視覺特征軌跡的目的。相比于傳統(tǒng)的在整個(gè)時(shí)空執(zhí)行自注意力機(jī)制的 Transformer 來說,軌跡感知的 Transformer 大大降低了計(jì)算成本,并使 Transformer 能夠?qū)﹂L距離的視頻特征進(jìn)行建模。
圖9:基于軌跡感知的視頻超分辨率 Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)圖
同時(shí),本文還進(jìn)一步提出了一個(gè)跨尺度特征標(biāo)記化模塊來克服長距離視頻中頻繁出現(xiàn)的目標(biāo)尺度變化問題。通過對四個(gè)廣泛使用的視頻超分辨率基準(zhǔn)數(shù)據(jù)集進(jìn)行大量的定量和定性評估,實(shí)驗(yàn)結(jié)果表明本文所提出的軌跡感知的 Transformer 比其他最先進(jìn)的模型更具有優(yōu)勢。相關(guān)的代碼和模型已經(jīng)在 GitHub 開源:https://github.com/researchmm/TTVSR。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。