色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<samp id="fyfrm"><legend id="fyfrm"></legend></samp>

"); //-->

博客專欄

EEPW首頁 > 博客 > Transformer在計算機視覺領域走到哪了？（1）

Transformer在計算機視覺領域走到哪了？（1）

發(fā)布人：MSRAsia 時間：2021-05-28 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

編者按：Transformer 模型在自然語言處理（NLP）領域已然成為一個新范式，如今越來越多的研究在嘗試將 Transformer 模型強大的建模能力應用到計算機視覺（CV）領域。那么未來，Transformer 會不會如同在 NLP 領域的應用一樣革新 CV 領域？今后的研究思路又有哪些？微軟亞洲研究院多媒體搜索與挖掘組的研究員們基于 Vision Transformer 模型在圖像和視頻理解領域的最新工作，可能會帶給你一些新的理解。

作為一個由自注意力機制組成的網絡結構，Transformer一“出場”就以強大的縮放性、學習長距離的依賴等優(yōu)勢，替代卷積神經網絡（CNN）、循環(huán)神經網絡（RNN）等網絡結構，“席卷”了自然語言處理（NLP）領域的理解、生成任務。

然而，Transformer 并未止步于此，2020年，Transformer 模型首次被應用到了圖像分類任務中并得到了比 CNN 模型更好的結果。此后，不少研究都開始嘗試將 Transformer 模型強大的建模能力應用到計算機視覺領域。目前，Transformer 已經在三大圖像問題上——分類、檢測和分割，都取得了不錯的效果。視覺與語言預訓練、圖像超分、視頻修復和視頻目標追蹤等任務也正在成為 Transformer “跨界”的熱門方向，在 Transformer 結構基礎上進行應用和設計，也都取得了不錯的成績。

Transformer“跨界”圖像任務

最近幾年，隨著基于 Transformer 的預訓練模型在 NLP 領域不斷展現出驚人的能力，越來越多的工作將 Transformer 引入到了圖像以及相關的跨模態(tài)領域，Transformer 的自注意力機制以其領域無關性和高效的計算，極大地推動了圖像相關任務的發(fā)展。

端到端的視覺和語言跨模態(tài)預訓練模型

視覺-語言預訓練任務屬于圖像領域，其目標是利用大規(guī)模圖片和語言對應的數據集，通過設計預訓練任務學習更加魯棒且具有代表性的跨模態(tài)特征，從而提高下游視覺-語言任務的性能。

現有的視覺-語言預訓練工作大都沿用傳統(tǒng)視覺-語言任務的視覺特征表示，即基于目標檢測網絡離線抽取的區(qū)域視覺特征，將研究重點放到了視覺-語言（vision-language，VL）的特征融合以及預訓練上，卻忽略了視覺特征的優(yōu)化對于跨模態(tài)模型的重要性。這種傳統(tǒng)的視覺特征對于 VL 任務的學習主要有兩點問題：

1）視覺特征受限于原本視覺檢測任務的目標類別

2）忽略了非目標區(qū)域中對于上下文理解的重要信息

為了在VL模型中優(yōu)化視覺特征，微軟亞洲研究院多媒體搜索與挖掘組的研究員們提出了一種端到端的 VL 預訓練網絡 SOHO，為 VL 訓練模型提供了一條全新的探索路徑。該工作的相關論文“Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning”已收錄于CVPR 2021 Oral。

論文鏈接：https://arxiv.org/abs/2104.03135

GitHub地址：https://github.com/researchmm/soho

SOHO 模型的主要思路是：將視覺編碼器整合到 VL 的訓練網絡中，依靠 VL 預訓練任務優(yōu)化整個網絡，從而簡化訓練流程，緩解依賴人工標注數據的問題，同時使得視覺編碼器能夠在 VL 預訓練任務的指導下在線更新，提供更好的視覺表征。

經驗證，SOHO 模型不僅降低了對人工標注數據的需求，而且在下游多個視覺-語言任務（包括視覺問答、圖片語言檢索、自然語言圖像推理等）的公平比較下，都取得了 SOTA 的成績。

圖1：端到端的視覺語言預訓練網絡 SOHO

如圖1所示，SOHO 由三部分組成：1）基于卷積網絡的視覺編碼器（可在線更新）；2）基于視覺字典（Visual Dictionary）的視覺嵌入層；3）由多層 Transformer 組成的 VL 融合網絡。三個部分“各司其職”，卷積網絡負責將一張圖像表征為一組向量，然后利用視覺字典對圖像中相近的特征向量進行表征，最后利用 Transformer 組成的網絡將基于字典嵌入的視覺特征與文本特征融合到一起。

對于視覺編碼器，研究員們采用了 ResNet-101 作為基礎網絡結構對輸入圖像進行編碼，與基于目標檢測模型的圖像編碼器相比，這種方式的好處是：可以簡化操作。為了將圖像中相近的特征用統(tǒng)一的特征表征，同時為 MVM（Masked vision Modeling）提供類別標簽，研究員們利用了視覺字典。整個字典在網絡學習的過程中都采用了動量更新的方式進行學習?；?Transform 的特征融合網絡則采用了和 BERT 相同的網絡結構。

為了優(yōu)化整個網絡，研究員們利用 MVM、MLM(Masked Language Modeling) 以及 ITM(Image-Text Matching) 三個預訓練任務進行了模型訓練，并將得到的參數應用到了四個相關的 VL 下游任務上，均取得了較好的結果（如表格1-4所示）。

表格1：SOHO 在 MSCOCO 數據集上與其他方法的 text retrieval（TR）和 image retrieval（IR）的性能比較

表格2：SOHO 在 VQA 2.0 數據集上的 VQA 性能表現

表格3：SOHO 在 NLVR2 數據集上的 Visual Reasoning 性能表現

表格4：SOHO 在 SNLI-VE 數據集上的 Visual Entailment 性能表現

最后，通過對視覺字典中部分 ID 對應的圖片內容進行可視化（如圖2所示），研究員們發(fā)現即使沒有強監(jiān)督的視覺類別標注，SOHO 也可以將具有相似語義的視覺內容聚類到同一個字典項中。相對于使用基于目標檢測的視覺語言模型，SOHO 擺脫了圖片框的回歸需求，推理時間（inference time）也加快了10倍，在真實場景應用中更加實際和便捷。

圖2：Visual Dictionary 部分 ID 對應圖片內容的可視化

基于紋理 Transformer 模型的圖像超分辯率技術

從古老的膠片照相機到今天的數碼時代，人類拍攝和保存了大量的圖片信息，但這些圖片不可避免地存在各種不同程度的瑕疵。將圖片變得更清晰、更鮮活，一直是計算機視覺領域的重要話題。針對于圖像超分辨率的問題，微軟亞洲研究院的研究員們創(chuàng)新性地將 Transformer 結構應用在了圖像生成領域，提出了一種基于紋理 Transformer 模型的圖像超分辯率方法 TTSR。

該模型可以有效地搜索與遷移高清的紋理信息，最大程度地利用參考圖像的信息，并可以正確地將高清紋理遷移到生成的超分辨率結果當中，從而解決了紋理模糊和紋理失真的問題。該工作“Learning Texture Transformer Network for Image Super-Resolution”發(fā)表在 CVPR 2020。

論文鏈接：https://arxiv.org/pdf/2006.04139.pdf

GitHub地址：https://github.com/researchmm/TTSR

與先前盲猜圖片細節(jié)的方法不同，研究員們通過引入一張高分辨率參考圖像來指引整個超分辨率過程。高分辨率參考圖像的引入，將圖像超分辨率問題由較為困難的紋理恢復/生成轉化為了相對簡單的紋理搜索與遷移，使得超分辨率結果在指標以及視覺效果上有了顯著的提升。如圖3所示，TTSR 模型包括：可學習的紋理提取器模塊（Learnable Texture Extractor）、相關性嵌入模塊（Relevance Embedding）、硬注意力模塊（Hard Attention）、軟注意力模塊（Soft Attention）。

圖3：紋理 Transformer 模型

傳統(tǒng) Transformer 通過堆疊使得模型具有更強的表達能力，然而在圖像生成問題中，簡單的堆疊很難產生很好的效果。為了進一步提升模型對參考圖像信息的提取和利用，研究員們提出了跨層級的特征融合機制——將所提出的紋理 Transformer 應用于 x1、x2、x4 三個不同的層級，并將不同層級間的特征通過上采樣或帶步長的卷積進行交叉融合。因此，不同粒度的參考圖像信息會滲透到不同的層級，使得網絡的特征表達能力增強，提高生成圖像的質量。

圖4：多個紋理 Transformer 跨層級堆疊模型

研究員們在 CUFED5、Sun80、Urban100、Manga109 數據集上針對 TTSR 方法進行了量化比較，具體如表格5所示。圖5展示了 TTSR 與現有的方法在不同數據集上的視覺比較結果，可以發(fā)現 TTSR 顯著領先于其他方法的結果。

表格5：TTSR 與現有方法在不同數據集上的量化比較結果

圖5：TTSR 與現有方法在不同數據集上的視覺比較結果

了解更多 TTSR 細節(jié)，可點擊查看此前的文章：CVPR 2020丨圖像超清化+老照片修復技術，拯救你所有的模糊、破損照片。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

海聯達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

AI驅動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

釋說芯語16：硬科技：構建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

加大調整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產力

winni945 | 2018-09-12

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

EEPW2018年3月刊(工業(yè)物聯網)

資源下載工業(yè)物聯網 AI | 2018-03-12

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯網技術 | 2023-04-25

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

2021春晚黑科技，火爆全網的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

繼上次海聯達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

焦點

推薦視頻

更多>>

技術專區(qū)

關閉

<table id="fnktf"></table>