色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > 當(dāng)Swin Transformer遇上DCN，清華可變形注意力Transformer模型優(yōu)于多數(shù)ViT

當(dāng)Swin Transformer遇上DCN，清華可變形注意力Transformer模型優(yōu)于多數(shù)ViT

發(fā)布人：機(jī)器之心時(shí)間：2022-02-08 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

本文中，來(lái)自清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊，其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對(duì)的位置，使得自注意力模塊能夠?qū)Ｗ⒂谙嚓P(guān)區(qū)域，并捕獲更多信息特征。

Transformer 近來(lái)在各種視覺(jué)任務(wù)上表現(xiàn)出卓越的性能，感受野賦予 Transformer 比 CNN 更強(qiáng)的表征能力。然而，簡(jiǎn)單地?cái)U(kuò)大感受野會(huì)引起一些問(wèn)題。一方面，使用密集注意力（例如 ViT）會(huì)導(dǎo)致過(guò)多的內(nèi)存和計(jì)算成本，并且特征可能會(huì)受到超出興趣區(qū)域的無(wú)關(guān)部分的影響；另一方面，PVT 或 Swin Transformer 中采用的稀疏注意力與數(shù)據(jù)無(wú)關(guān)，可能會(huì)限制對(duì)遠(yuǎn)程（long range）關(guān)系建模的能力。

為了緩解這些問(wèn)題，清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊，其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對(duì)的位置。這種靈活的方案使自注意力模塊能夠?qū)Ｗ⒂谙嚓P(guān)區(qū)域并捕獲更多信息特征。

在此基礎(chǔ)上，該研究提出了可變形注意力 Transformer（Deformable Attention Transformer，DAT），一種具有可變形注意力的通用主干網(wǎng)絡(luò)模型，適用于圖像分類和密集預(yù)測(cè)任務(wù)。該研究通過(guò)大量基準(zhǔn)測(cè)試實(shí)驗(yàn)證明了該模型的性能提升。

微信圖片_20220208191619.png

論文地址：https://arxiv.org/abs/2201.00520v1

可變形注意力 Transformer

現(xiàn)有的分層視覺(jué) Transformer，特別是 PVT 和 Swin Transformer 試圖解決過(guò)多注意力的挑戰(zhàn)。前者的下采樣技術(shù)會(huì)導(dǎo)致嚴(yán)重的信息損失，而后者的 Swin 注意力導(dǎo)致感受野的增長(zhǎng)要慢得多，這限制了對(duì)大型物體進(jìn)行建模的潛力。因此，需要依賴于數(shù)據(jù)的稀疏注意力來(lái)靈活地對(duì)相關(guān)特征進(jìn)行建模，從而導(dǎo)致首先在 DCN [9] 中提出可變形機(jī)制。

然而，在 Transformer 模型中實(shí)現(xiàn) DCN 是一個(gè)不簡(jiǎn)單的問(wèn)題。在 DCN 中，特征圖上的每個(gè)元素單獨(dú)學(xué)習(xí)其偏移量，其中 H ×W ×C 特征圖上的 3 × 3 可變形卷積具有 9 HWC 的空間復(fù)雜度。如果在注意力模塊中直接應(yīng)用相同的機(jī)制，空間復(fù)雜度將急劇上升到 N_qN_kC，其中 N_q、N_k 是查詢和鍵的數(shù)量，通常與特征圖大小 HW 具有相同的比例，帶來(lái)近似于雙二次的復(fù)雜度。

盡管 Deformable DETR [54] 已經(jīng)設(shè)法通過(guò)在每個(gè)尺度上設(shè)置較少數(shù)量的 N_k = 4 的鍵來(lái)減少這種開(kāi)銷，并且可以很好地作為檢測(cè)頭，但由于不可接受的信息丟失（參見(jiàn)附錄中的詳細(xì)比較），在骨干網(wǎng)絡(luò)中關(guān)注如此少的鍵效果不佳。與此同時(shí)，[3,52] 中的觀察表明，不同的查詢?cè)谝曈X(jué)注意力模型中具有相似的注意力圖。因此，該研究選擇了一個(gè)更簡(jiǎn)單的解決方案，為每個(gè)查詢共享移位鍵和值，以實(shí)現(xiàn)有效的權(quán)衡。

模型架構(gòu)

該研究在 Transformer（等式 (4)）中的可變形注意力替換了 vanilla MHSA，并將其與 MLP（等式 (5)）相結(jié)合，以構(gòu)建一個(gè)可變形的視覺(jué) transformer 塊。在網(wǎng)絡(luò)架構(gòu)方面， DAT 與 [7, 26, 31, 36] 共享類似的金字塔結(jié)構(gòu)，廣泛適用于需要多尺度特征圖的各種視覺(jué)任務(wù)。如下圖 3 所示，形狀為 H × W × 3 的輸入圖像首先被步長(zhǎng)為 4 的 4 × 4 非重疊卷積嵌入，然后一個(gè)歸一化層獲得補(bǔ)丁嵌入。

微信圖片_20220208191624.png

為了構(gòu)建分層特征金字塔，主干包括 4 個(gè)階段，步幅逐漸增加。在兩個(gè)連續(xù)的階段之間，有一個(gè)步長(zhǎng)為 2 的非重疊 2×2 卷積，對(duì)特征圖進(jìn)行下采樣，將空間大小減半并將特征維度加倍。

在分類任務(wù)中，該研究首先對(duì)最后階段輸出的特征圖進(jìn)行歸一化，然后采用具有池化特征的線性分類器來(lái)預(yù)測(cè)對(duì)數(shù)；在對(duì)象檢測(cè)、實(shí)例分割和語(yǔ)義分割任務(wù)中，DAT 在集成視覺(jué)模型中扮演主干的角色，以提取多尺度特征。該研究為每個(gè)階段的特征添加一個(gè)歸一化層，然后將它們輸入到以下模塊中，例如對(duì)象檢測(cè)中的 FPN [23] 或語(yǔ)義分割中的****。

實(shí)驗(yàn)

該研究在 3 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，以驗(yàn)證提出的 DAT 的有效性。該研究展示了在 ImageNet-1K [10] 分類、COCO 目標(biāo)檢測(cè)和 ADE20K 語(yǔ)義分割任務(wù)上的結(jié)果。此外，該研究提供了消融研究和可視化結(jié)果，以進(jìn)一步展示該方法的有效性。

ImageNet-1K 分類

ImageNet-1K [10] 數(shù)據(jù)集有 128 萬(wàn)張用于訓(xùn)練的圖像和 5 萬(wàn)張用于驗(yàn)證的圖像。研究者在訓(xùn)練分割上訓(xùn)練 DAT 的三個(gè)變體，并報(bào)告驗(yàn)證分割上的 Top-1 準(zhǔn)確度，并與其他 Vision Transformer 模型進(jìn)行比較。

該研究在下表 2 中給出了有 300 個(gè)訓(xùn)練 epoch 的結(jié)果。與其他 SOTA 視覺(jué) Transformer 模型相比， DAT 在具有相似計(jì)算復(fù)雜性的情況下在 Top-1 精度上實(shí)現(xiàn)了顯著提高。DAT 在所有三個(gè)尺度上都優(yōu)于 Swin Transformer [26]、PVT [36]、DPT [7] 和 DeiT [33]。沒(méi)有在 Transformer 塊 [13, 14, 35] 中插入卷積，或在補(bǔ)丁嵌入 [6, 11, 45] 中使用重疊卷積，DAT 比 Swin Transformer [26] 實(shí)現(xiàn)了 +0.7、+0.7 和 +0.5 的增益。在 384 × 384 分辨率下進(jìn)行微調(diào)時(shí)，該模型繼續(xù)比 Swin Transformer 性能好 0.3。

微信圖片_20220208191625.png

COCO 目標(biāo)檢測(cè)

COCO 目標(biāo)檢測(cè)和實(shí)例分割數(shù)據(jù)集有 118K 的訓(xùn)練圖像和 5K 的驗(yàn)證圖像。該研究使用 DAT 作為 RetinaNet [24]、Mask R-CNN [17] 和 Cascade Mask R-CNN [2] 框架中的主干，以評(píng)估該方法的有效性。該研究在 ImageNet-1K 數(shù)據(jù)集上對(duì)該模型進(jìn)行 300 個(gè) epoch 的預(yù)訓(xùn)練，并遵循 Swin Transformer [26] 中類似的訓(xùn)練策略來(lái)公平地比較該方法。該研究在 1x 和 3x 訓(xùn)練計(jì)劃中報(bào)告在 RetinaNet 模型上的 DAT。如下表 3 所示，在微型和小型模型中，DAT 的性能優(yōu)于 Swin Transformer 1.1 和 1.2 mAP。

微信圖片_20220208191627.png

當(dāng)在兩階段檢測(cè)器（例如 Mask R-CNN、Cascade Mask R-CNN）中實(shí)現(xiàn)時(shí)，DAT 模型在不同尺寸的 Swin Transformer 模型上實(shí)現(xiàn)了一致的改進(jìn)，如下表 4 所示。

微信圖片_20220208191629.png

下表 5 給出了在驗(yàn)證集上各種方法的 mIoU 分?jǐn)?shù)。

微信圖片_20220208191631.png

消融實(shí)驗(yàn)

為了驗(yàn)證 DAT 模型中關(guān)鍵組件設(shè)計(jì)的有效性，該研究進(jìn)行了消融實(shí)驗(yàn)，報(bào)告了基于 DAT-T 的 ImageNet-1K 分類結(jié)果。對(duì)于幾何信息開(kāi)發(fā)，該研究首先評(píng)估了所提可變形偏移和可變形相對(duì)位置嵌入的有效性，如下表 6 所示。

微信圖片_20220208191633.png

對(duì)于不同階段的可變形注意力，該研究用不同階段的可變形注意力替換了 Swin Transfomer [26] 的移位窗口注意力。如下表 7 所示，僅替換最后階段的注意力提高了 0.1，替換最后兩個(gè)階段導(dǎo)致性能增益為 0.7（達(dá)到 82.0 的整體準(zhǔn)確度）。然而，在早期階段用更多可變形注意力替換會(huì)略微降低準(zhǔn)確性。

微信圖片_20220208191634.png

可視化

該研究在 DAT 中可視化學(xué)習(xí)變形位置的示例，以驗(yàn)證該方法的有效性。如下圖 4 所示，采樣點(diǎn)描繪在對(duì)象檢測(cè)框和實(shí)例分割掩碼的頂部，從中可以看到這些點(diǎn)已轉(zhuǎn)移到目標(biāo)對(duì)象。

微信圖片_20220208191636.png

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

模擬電路相關(guān)文章:模擬電路基礎(chǔ)

穩(wěn)壓二極管相關(guān)文章:穩(wěn)壓二極管的作用

手機(jī)電池相關(guān)文章:手機(jī)電池修復(fù)

絕緣電阻測(cè)試儀相關(guān)文章:絕緣電阻測(cè)試儀原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

萬(wàn)家樂(lè)JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬(wàn)家樂(lè) | 2013-01-17

WTC-AI型太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

大嘴業(yè)話-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

WTC-AI太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

國(guó)際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺(tái)電腦... 一臺(tái)來(lái)創(chuàng)建AI... 一臺(tái)來(lái)模擬AI... 一臺(tái)來(lái)運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

如何快速搭建手寫(xiě)體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫(xiě)體識(shí)別 | 2022-07-29

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

蘋(píng)果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

CSR8670CSR8675智能語(yǔ)音Alexa藍(lán)牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

AI+機(jī)器視覺(jué)成趨勢(shì)，圖文詳解N大應(yīng)用場(chǎng)景

智能計(jì)算安森美 AI 機(jī)器視覺(jué) | 2024-07-31

海聯(lián)達(dá)（Aigale）Ai-HD1 無(wú)線全高清套件拆解

zhuwei0710 | 2013-04-28

釋說(shuō)芯語(yǔ)16：硬科技：構(gòu)建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)