Transformer在計算機視覺領域走到哪了?(1)
編者按:Transformer 模型在自然語言處理(NLP)領域已然成為一個新范式,如今越來越多的研究在嘗試將 Transformer 模型強大的建模能力應用到計算機視覺(CV)領域。那么未來,Transformer 會不會如同在 NLP 領域的應用一樣革新 CV 領域?今后的研究思路又有哪些?微軟亞洲研究院多媒體搜索與挖掘組的研究員們基于 Vision Transformer 模型在圖像和視頻理解領域的最新工作,可能會帶給你一些新的理解。
作為一個由自注意力機制組成的網絡結構,Transformer一“出場”就以強大的縮放性、學習長距離的依賴等優(yōu)勢,替代卷積神經網絡(CNN)、循環(huán)神經網絡(RNN)等網絡結構,“席卷”了自然語言處理(NLP)領域的理解、生成任務。
然而,Transformer 并未止步于此,2020年,Transformer 模型首次被應用到了圖像分類任務中并得到了比 CNN 模型更好的結果。此后,不少研究都開始嘗試將 Transformer 模型強大的建模能力應用到計算機視覺領域。目前,Transformer 已經在三大圖像問題上——分類、檢測和分割,都取得了不錯的效果。視覺與語言預訓練、圖像超分、視頻修復和視頻目標追蹤等任務也正在成為 Transformer “跨界”的熱門方向,在 Transformer 結構基礎上進行應用和設計,也都取得了不錯的成績。
Transformer“跨界”圖像任務
最近幾年,隨著基于 Transformer 的預訓練模型在 NLP 領域不斷展現出驚人的能力,越來越多的工作將 Transformer 引入到了圖像以及相關的跨模態(tài)領域,Transformer 的自注意力機制以其領域無關性和高效的計算,極大地推動了圖像相關任務的發(fā)展。
端到端的視覺和語言跨模態(tài)預訓練模型
視覺-語言預訓練任務屬于圖像領域,其目標是利用大規(guī)模圖片和語言對應的數據集,通過設計預訓練任務學習更加魯棒且具有代表性的跨模態(tài)特征,從而提高下游視覺-語言任務的性能。
現有的視覺-語言預訓練工作大都沿用傳統(tǒng)視覺-語言任務的視覺特征表示,即基于目標檢測網絡離線抽取的區(qū)域視覺特征,將研究重點放到了視覺-語言(vision-language,VL)的特征融合以及預訓練上,卻忽略了視覺特征的優(yōu)化對于跨模態(tài)模型的重要性。這種傳統(tǒng)的視覺特征對于 VL 任務的學習主要有兩點問題:
1)視覺特征受限于原本視覺檢測任務的目標類別
2)忽略了非目標區(qū)域中對于上下文理解的重要信息
為了在VL模型中優(yōu)化視覺特征,微軟亞洲研究院多媒體搜索與挖掘組的研究員們提出了一種端到端的 VL 預訓練網絡 SOHO,為 VL 訓練模型提供了一條全新的探索路徑。 該工作的相關論文“Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning”已收錄于CVPR 2021 Oral。
論文鏈接:https://arxiv.org/abs/2104.03135
GitHub地址:https://github.com/researchmm/soho
SOHO 模型的主要思路是:將視覺編碼器整合到 VL 的訓練網絡中,依靠 VL 預訓練任務優(yōu)化整個網絡,從而簡化訓練流程,緩解依賴人工標注數據的問題,同時使得視覺編碼器能夠在 VL 預訓練任務的指導下在線更新,提供更好的視覺表征。
經驗證,SOHO 模型不僅降低了對人工標注數據的需求,而且在下游多個視覺-語言任務(包括視覺問答、圖片語言檢索、自然語言圖像推理等)的公平比較下,都取得了 SOTA 的成績。
圖1:端到端的視覺語言預訓練網絡 SOHO
如圖1所示,SOHO 由三部分組成:1)基于卷積網絡的視覺編碼器(可在線更新);2)基于視覺字典(Visual Dictionary)的視覺嵌入層;3)由多層 Transformer 組成的 VL 融合網絡。三個部分“各司其職”,卷積網絡負責將一張圖像表征為一組向量,然后利用視覺字典對圖像中相近的特征向量進行表征,最后利用 Transformer 組成的網絡將基于字典嵌入的視覺特征與文本特征融合到一起。
對于視覺編碼器,研究員們采用了 ResNet-101 作為基礎網絡結構對輸入圖像進行編碼,與基于目標檢測模型的圖像編碼器相比,這種方式的好處是:可以簡化操作。為了將圖像中相近的特征用統(tǒng)一的特征表征,同時為 MVM(Masked vision Modeling)提供類別標簽,研究員們利用了視覺字典。整個字典在網絡學習的過程中都采用了動量更新的方式進行學習?;?Transform 的特征融合網絡則采用了和 BERT 相同的網絡結構。
為了優(yōu)化整個網絡,研究員們利用 MVM、MLM(Masked Language Modeling) 以及 ITM(Image-Text Matching) 三個預訓練任務進行了模型訓練,并將得到的參數應用到了四個相關的 VL 下游任務上,均取得了較好的結果(如表格1-4所示)。
表格1:SOHO 在 MSCOCO 數據集上與其他方法的 text retrieval(TR)和 image retrieval(IR)的性能比較
表格2:SOHO 在 VQA 2.0 數據集上的 VQA 性能表現
表格3:SOHO 在 NLVR2 數據集上的 Visual Reasoning 性能表現
表格4:SOHO 在 SNLI-VE 數據集上的 Visual Entailment 性能表現
最后,通過對視覺字典中部分 ID 對應的圖片內容進行可視化(如圖2所示),研究員們發(fā)現即使沒有強監(jiān)督的視覺類別標注,SOHO 也可以將具有相似語義的視覺內容聚類到同一個字典項中。相對于使用基于目標檢測的視覺語言模型,SOHO 擺脫了圖片框的回歸需求,推理時間(inference time)也加快了10倍,在真實場景應用中更加實際和便捷。
圖2:Visual Dictionary 部分 ID 對應圖片內容的可視化
基于紋理 Transformer 模型的圖像超分辯率技術
從古老的膠片照相機到今天的數碼時代,人類拍攝和保存了大量的圖片信息,但這些圖片不可避免地存在各種不同程度的瑕疵。將圖片變得更清晰、更鮮活,一直是計算機視覺領域的重要話題。針對于圖像超分辨率的問題,微軟亞洲研究院的研究員們創(chuàng)新性地將 Transformer 結構應用在了圖像生成領域,提出了一種基于紋理 Transformer 模型的圖像超分辯率方法 TTSR。
該模型可以有效地搜索與遷移高清的紋理信息,最大程度地利用參考圖像的信息,并可以正確地將高清紋理遷移到生成的超分辨率結果當中,從而解決了紋理模糊和紋理失真的問題。 該工作“Learning Texture Transformer Network for Image Super-Resolution”發(fā)表在 CVPR 2020。
論文鏈接:https://arxiv.org/pdf/2006.04139.pdf
GitHub地址:https://github.com/researchmm/TTSR
與先前盲猜圖片細節(jié)的方法不同,研究員們通過引入一張高分辨率參考圖像來指引整個超分辨率過程。高分辨率參考圖像的引入,將圖像超分辨率問題由較為困難的紋理恢復/生成轉化為了相對簡單的紋理搜索與遷移,使得超分辨率結果在指標以及視覺效果上有了顯著的提升。如圖3所示,TTSR 模型包括:可學習的紋理提取器模塊(Learnable Texture Extractor)、相關性嵌入模塊(Relevance Embedding)、硬注意力模塊(Hard Attention)、軟注意力模塊(Soft Attention)。
圖3:紋理 Transformer 模型
傳統(tǒng) Transformer 通過堆疊使得模型具有更強的表達能力,然而在圖像生成問題中,簡單的堆疊很難產生很好的效果。為了進一步提升模型對參考圖像信息的提取和利用,研究員們提出了跨層級的特征融合機制——將所提出的紋理 Transformer 應用于 x1、x2、x4 三個不同的層級,并將不同層級間的特征通過上采樣或帶步長的卷積進行交叉融合。因此,不同粒度的參考圖像信息會滲透到不同的層級,使得網絡的特征表達能力增強,提高生成圖像的質量。
圖4:多個紋理 Transformer 跨層級堆疊模型
研究員們在 CUFED5、Sun80、Urban100、Manga109 數據集上針對 TTSR 方法進行了量化比較,具體如表格5所示。圖5展示了 TTSR 與現有的方法在不同數據集上的視覺比較結果,可以發(fā)現 TTSR 顯著領先于其他方法的結果。
表格5:TTSR 與現有方法在不同數據集上的量化比較結果
圖5:TTSR 與現有方法在不同數據集上的視覺比較結果
了解更多 TTSR 細節(jié),可點擊查看此前的文章:CVPR 2020丨圖像超清化+老照片修復技術,拯救你所有的模糊、破損照片。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。