色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<label id="eotom"><em id="eotom"><optgroup id="eotom"></optgroup></em></label>

"); //-->

博客專欄

EEPW首頁 > 博客 > 利用TRansformer進行端到端的目標檢測及跟蹤

利用TRansformer進行端到端的目標檢測及跟蹤

發(fā)布人：CV研究院時間：2021-06-27 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

現(xiàn)存的用檢測跟蹤的方法采用簡單的heuristics，如空間或外觀相似性。這些方法，盡管其共性，但過于簡單，不足以建模復雜的變化，如通過遮擋跟蹤。

1簡要

多目標跟蹤(MOT)任務的關(guān)鍵挑戰(zhàn)是跟蹤目標下的時間建?！，F(xiàn)存的用檢測跟蹤的方法采用簡單的heuristics，如空間或外觀相似性。這些方法，盡管其共性，但過于簡單，不足以建模復雜的變化，如通過遮擋跟蹤。所以現(xiàn)有的方法缺乏從數(shù)據(jù)中學習時間變化的能力。

在今天分享中，研究者提出了第一個完全端到端多目標跟蹤框架MOTR。它學習了模擬目標的長距離時間變化。它隱式地執(zhí)行時間關(guān)聯(lián)，并避免了以前的顯式啟發(fā)式方法。MOTR建立在TRansformer和DETR之上，引入了“跟蹤查詢”的概念。每個跟蹤查詢都會模擬一個目標的整個跟蹤。逐幀傳輸和更新，以無縫地執(zhí)行目標檢測和跟蹤。提出了時間聚合網(wǎng)絡（Temporal aggregation network）結(jié)合多框架訓練來建模長期時間關(guān)系。實驗結(jié)果表明，MOTR達到了最先進的性能。

2 簡單背景

多目標跟蹤(MOT)是一種視覺目標檢測，其任務不僅是定位每一幀中的所有目標，而且還可以預測這些目標在整個視頻序列中的運動軌跡。這個問題具有挑戰(zhàn)性，因為每一幀中的目標可能會在pool environment中被遮擋，而開發(fā)的跟蹤器可能會受到長期和低速率跟蹤的影響。這些復雜而多樣的跟蹤方案在設計MOT解決方案時帶來了重大挑戰(zhàn)。

對于基于IoU的方法，計算從兩個相鄰幀檢測到的檢測框的IoU矩陣，重疊高于給定閾值的邊界框與相同的身份相關(guān)聯(lián)(見上圖(a))。類似地，基于Re-ID的方法計算相鄰幀的特征相似性，并將目標對與高相似性相關(guān)起來。此外，最近的一些工作還嘗試了目標檢測和重識別特征學習的聯(lián)合訓練(見上圖(b))。

由于DETR的巨大成功，這項工作將“目標查詢”的概念擴展到目標跟蹤模型，在新框架中被稱為跟蹤查詢。每個跟蹤查詢都負責預測一個目標的整個跟蹤。如上圖(c)，與分類和框回歸分支并行，MOTR預測每一幀的跟蹤查詢集。

3 新框架分析

最近，DETR通過采用TRansformer成功地進行了目標檢測。在DETR中，目標查詢，一個固定數(shù)量的學習位置嵌入，表示一些可能的實例的建議。一個目標查詢只對應于一個使用bipartite matching的對象?？紤]到DETR中存在的高復雜性和慢收斂問題，Deformable DETR用多尺度deformable attention取代了self-attention。為了展示目標查詢?nèi)绾瓮ㄟ^****與特征交互，研究者重新制定了Deformable DETR的****。

MOTR

在MOTR中，研究者引入了跟蹤查詢和連續(xù)查詢傳遞，以完全端到端的方式執(zhí)行跟蹤預測。進一步提出了時間聚合網(wǎng)絡來增強多幀的時間信息。

DETR中引入的目標（檢測）查詢不負責對特定目標的預測。因此，一個目標查詢可以隨著輸入圖像的變化而預測不同的目標。當在MOT數(shù)據(jù)集的示例上使用DETR檢測器時，如上圖(a)，相同檢測查詢（綠色目標查詢）預測兩個不同幀預測兩個不同的目標。因此，很難通過目標查詢的身份來將檢測預測作為跟蹤值聯(lián)系起來。作為一種補救措施，研究者將目標查詢擴展到目標跟蹤模型，即跟蹤查詢。在新的設計中，每個軌跡查詢都負責預測一個目標的整個軌跡。一旦跟蹤查詢與幀中的一個目標匹配，它總是預測目標，直到目標消失（見上圖(b))。

Overall architecture of the proposed MOTR

Query Interaction Module

在訓練階段，可以基于對bipartite matching的GTs的監(jiān)督來實現(xiàn)跟蹤查詢的學習。而對于推斷，研究者使用預測的軌跡分數(shù)來確定軌道何時出現(xiàn)和消失。

Overall Optimization

我們詳細描述下MOTR的訓練過程。給定一個視頻序列作為輸入，訓練損失，即track loss，是逐幀計算和逐幀生成的預測。總track loss是由訓練樣本上的所有GT的數(shù)量歸一化的所有幀的track loss的總和：

單幀圖像Lt的track loss可表示為：

4 實驗

Implementation Details

All the experiments are conducted on PyTorch with 8 Tesla V100 GPUs. We use the Deformable-DETR with ResNet50 as our basic network. The basic network is pretrained on the COCO detection dataset. We train our model with the AdamW optimizer for total 200 epochs with the initial learning rate of 2.0 · 10?4. The learning rate decays to 2.0 · 10?5 at 150 epochs. The batch size is set to 1 and each batch contains 5 frames.

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is set to two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five (bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

? THE END

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

電子血壓計相關(guān)文章:電子血壓計原理

蜂鳴器相關(guān)文章:蜂鳴器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 深度學習

相關(guān)推薦

基于深度學習的智能電網(wǎng)短期日負荷曲線預測系統(tǒng)設計與實現(xiàn)

智能計算 202302 深度學習短期負荷預測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)格 Flask | 2023-02-27

基于深度學習的跌倒檢測技術(shù)對比與分析*

智能計算深度學習跌倒檢測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)絡 202212 | 2022-12-22

深度學習（人工神經(jīng)網(wǎng)絡的研究的概念）

大綠葉 | 2020-07-28

TFLite模型的開盲盒體驗

嵌入式系統(tǒng) TFLite 模型推理庫深度學習 | 2024-05-10

AI深度學習

loof_lripa | 2024-04-20

深度學習（DeepLearning）

szhlss123 | 2022-08-17

Firefly DL小巧輕便，嵌入式深度學習加速部署

智能計算 Firefly DL 深度學習人工智能 | 2023-12-22

Deep Learning中文版

資源下載深度學習中文 | 2019-06-11

基于圖結(jié)構(gòu)的圖像注意力網(wǎng)絡

智能計算 202207 深度學習注意力機制圖像分類人臉識別 | 2022-07-26

深度學習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學習服務器部署 202212 | 2022-12-22

射頻系統(tǒng)的深度學習

資源下載 ADI RF DSP 深度學習 | 2020-04-20

視覺慣性導航融合算法研究進展

物聯(lián)網(wǎng)與傳感器 202302 視覺慣性導航優(yōu)化耦合算法深度學習 | 2023-02-21

深度強化學習核心技術(shù)開發(fā)與應用

szhlss123 | 2022-08-10

直覺有害！Facbook最新研究：易于解釋的神經(jīng)元會誤導DNN的學習

智能計算 DNN 深度神經(jīng)網(wǎng)絡深度學習 | 2022-07-05

什么是人機交互技術(shù)？

龍騰AI技術(shù) | 2022-11-02

一種改進的可遷移深度學習模型*

智能計算 202210 可遷移深度學習無標簽 | 2022-10-25

為什么深度學習如此容易被愚弄？AI研究員正努力修復神經(jīng)網(wǎng)絡缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡深度學習 | 2022-07-05

焦點

推薦視頻

更多>>

技術(shù)專區(qū)

<li id="3lkeo"></li>

<acronym id="3lkeo"></acronym>