色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<style id="qtfdw"></style>

<track id="qtfdw"></track>

"); //-->

博客專欄

EEPW首頁 > 博客 > YOLOS：通過目標(biāo)檢測重新思考Transformer（附源代碼）

YOLOS：通過目標(biāo)檢測重新思考Transformer（附源代碼）

發(fā)布人：CV研究院時(shí)間：2022-01-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

最近我看了一些之前的檢測框架，發(fā)現(xiàn)有兩個(gè)很有意思，不錯的框架，接下來我給大家簡單分析下，希望給大家?guī)韯?chuàng)新的啟示！

論文地址：https://arxiv.org/pdf/2106.00666.pdf

源代碼地址：https://github.com/hustvl/YOLOS

1 前言

Transformer能否從純序列到序列的角度執(zhí)行2D目標(biāo)級識別，而對2D空間結(jié)構(gòu)知之甚少？為了回答這個(gè)問題，今天就展示了“You Only Look at One Sequence” (YOLOS)，這是一系列基于樸素視覺變換器的目標(biāo)檢測模型，具有盡可能少的修改和inductive biases。

YOLOS-S, 200 epochs pre-trained, COCO AP = 36.1

我們發(fā)現(xiàn)僅在中等大小的ImageNet-1k數(shù)據(jù)集上預(yù)訓(xùn)練的YOLOS已經(jīng)可以在COCO上實(shí)現(xiàn)具有競爭力的目標(biāo)檢測性能，例如直接從BERT-Base中采用的YOLOS-Base可以實(shí)現(xiàn)42.0 box AP。研究者還通過目標(biāo)檢測討論了當(dāng)前預(yù)訓(xùn)練方案和模型縮放策略對Transformer在視覺中的影響和局限性。

2 背景

Transformer為遷移而生。在自然語言處理 (NLP) 中，主要方法是首先在大型通用語料庫上預(yù)訓(xùn)練Transformer以進(jìn)行通用語言表示學(xué)習(xí)，然后針對特定目標(biāo)任務(wù)對模型進(jìn)行微調(diào)。最近，Vision Transformer(ViT)表明，直接從NLP繼承的典型Transformer編碼器架構(gòu)可以使用現(xiàn)代視覺遷移學(xué)習(xí)配方在大規(guī)模圖像識別上表現(xiàn)出奇的好。將圖像補(bǔ)丁嵌入序列作為輸入，ViT可以從純序列到序列的角度成功地將預(yù)訓(xùn)練的通用視覺表示從足夠的規(guī)模轉(zhuǎn)移到更具體的圖像分類任務(wù)，數(shù)據(jù)點(diǎn)更少。

ViT-FRCNN是第一個(gè)使用預(yù)訓(xùn)練的ViT作為R-CNN目標(biāo)檢測器的主干。然而，這種設(shè)計(jì)無法擺脫對卷積神經(jīng)網(wǎng)絡(luò)(CNN)和強(qiáng)2D歸納偏差的依賴，因?yàn)閂iT-FRCNN將ViT的輸出序列重新解釋為2D空間特征圖，并依賴于區(qū)域池化操作（即RoIPool或RoIAlign）以及基于區(qū)域的CNN架構(gòu)來解碼ViT特征以實(shí)現(xiàn)目標(biāo)級感知。受現(xiàn)代CNN設(shè)計(jì)的啟發(fā)，最近的一些工作將金字塔特征層次結(jié)構(gòu)和局部性引入Vision Transformer設(shè)計(jì)，這在很大程度上提高了包括目標(biāo)檢測在內(nèi)的密集預(yù)測任務(wù)的性能。然而，這些架構(gòu)是面向性能的。另一系列工作，DEtection TRansformer(DETR)系列，使用隨機(jī)初始化的Transformer對CNN特征進(jìn)行編碼和解碼，這并未揭示預(yù)訓(xùn)練Transformer在目標(biāo)檢測中的可遷移性。

ViT-FRCNN

為了解決上面涉及的問題，有研究者展示了You Only Look at One Sequence (YOLOS)，這是一系列基于規(guī)范ViT架構(gòu)的目標(biāo)檢測模型，具有盡可能少的修改以及注入的歸納偏置。從ViT到Y(jié)OLOS檢測器的變化很簡單：

YOLOS在ViT中刪除[CLS]標(biāo)記，并將一百個(gè)可學(xué)習(xí)的[DET]標(biāo)記附加到輸入序列以進(jìn)行目標(biāo)檢測；

YOLOS將ViT中的圖像分類損失替換為bipartite matching loss，以遵循Carion等人【End-to-end object detection with transformers】的一套預(yù)測方式進(jìn)行目標(biāo)檢測。這可以避免將ViT的輸出序列重新解釋為2D特征圖，并防止在標(biāo)簽分配期間手動注入啟發(fā)式和對象2D空間結(jié)構(gòu)的先驗(yàn)知識。

3 新框架

YOLOS刪除用于圖像分類的[CLS]標(biāo)記，并將一百個(gè)隨機(jī)初始化的檢測標(biāo)記（[DET] 標(biāo)記）附加到輸入補(bǔ)丁嵌入序列以進(jìn)行目標(biāo)檢測。

在訓(xùn)練過程中，YOLOS將ViT中的圖像分類損失替換為bipartite matching loss，這里重點(diǎn)介紹YOLOS的設(shè)計(jì)方法論。

Detection Token

我們有目的地選擇隨機(jī)初始化的[DET]標(biāo)記作為目標(biāo)表示的代理，以避免2D結(jié)構(gòu)的歸納偏差和在標(biāo)簽分配期間注入的任務(wù)的先驗(yàn)知識。在對COCO進(jìn)行微調(diào)時(shí)，對于每次前向傳遞，在[DET]tokens生成的預(yù)測與真實(shí)對象之間建立最佳二分匹配。該過程與標(biāo)簽分配的作用相同，但不知道輸入的2D結(jié)構(gòu)，即YOLOS不需要將ViT的輸出序列重新解釋為用于標(biāo)簽分配的2D特征圖。理論上，YOLOS在不知道確切的空間結(jié)構(gòu)和幾何形狀的情況下執(zhí)行任何維度的物體檢測是可行的，只要每次通過輸入總是以相同的方式展平為一個(gè)序列。

YOLOS-S, 300 epochs pre-trained, COCO AP = 36.1

Fine-tuning at Higher Resolution

在COCO上進(jìn)行微調(diào)時(shí)，除用于分類和邊界框回歸的MLP頭以及隨機(jī)初始化的100個(gè)[DET]標(biāo)記外，所有參數(shù)均從ImageNet-1k預(yù)訓(xùn)練權(quán)重初始化。分類和邊界框回歸頭均由MLP實(shí)現(xiàn)，具有兩個(gè)使用單獨(dú)參數(shù)的隱藏層。

在微調(diào)期間，圖像具有比預(yù)訓(xùn)練高得多的分辨率，為了保持補(bǔ)丁大小相同（16 × 16），這導(dǎo)致更大的有效序列長度。雖然ViT可以處理任意序列長度，但位置嵌入需要適應(yīng)更長的輸入序列。我們以相同的方式對預(yù)訓(xùn)練的位置嵌入進(jìn)行2D插值。

4 實(shí)驗(yàn)分析及可視化

YOLOS的不同版本的結(jié)果

與訓(xùn)練的效果

不同尺度模型的預(yù)訓(xùn)練和遷移學(xué)習(xí)性能

與一些小型CNN檢測器的比較

Self-attention Maps of YOLOS

檢驗(yàn)與YOLOS-S最后一層頭部預(yù)測相關(guān)的[DET]tokens的自注意力?？梢暬痯ipeline遵循【 Emerging properties in self-supervised vision transformers】。可視化結(jié)果如下圖所示。

對于給定的YOLOS模型，不同的自注意力頭關(guān)注不同的模式和不同的位置。一些可視化是可解釋的，而另一些則不是。

我們研究了兩個(gè)YOLOS模型的注意力圖差異，即200 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S和300 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S。注意這兩個(gè)模型的AP是一樣的（AP=36.1）。從可視化中，我們得出結(jié)論，對于給定的預(yù)測對象，相應(yīng)的[DET]標(biāo)記以及注意力圖模式通常對于不同的模型是不同的。

? THE END

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

WTC-AI型太陽能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

WTC-AI太陽能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

iPhone 16將不會預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會體育 | 2024-07-26

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)

<style id="xdohs"><mark id="xdohs"></mark></style>