ICCV：阿里達(dá)摩院將Transformer應(yīng)用于目標(biāo)重識(shí)別，效果顯著

發(fā)布人：CV研究院時(shí)間：2023-04-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

論文地址：https://arxiv.org/pdf/2102.04378.pdf
開源代碼：https://github. com/heshuting555/TransReID
1

前言

提取穩(wěn)健的特征表示是目標(biāo)重識(shí)別 (ReID) 的關(guān)鍵挑戰(zhàn)之一。盡管基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的方法取得了巨大成功，但它們一次只處理一個(gè)局部鄰域，并且會(huì)因卷積和下采樣算子（例如池化和跨步卷積）導(dǎo)致細(xì)節(jié)信息丟失。為了克服這些限制，研究者提出了一個(gè)名為TransReID的純基于transformer的目標(biāo)ReID框架。
2

背景

ReID全稱Re-identification，也就是目標(biāo)重識(shí)別的意思。簡(jiǎn)單理解就是對(duì)于一個(gè)特定的目標(biāo)（可能是行人、車輛、人臉或者其他特定物體），在候選圖像集中檢索到它。或稱圖像中目標(biāo)的實(shí)例級(jí)檢索。

目標(biāo)重識(shí)別（ReID）與跟蹤（Tracking）有什么區(qū)別？

從任務(wù)的角度來(lái)看，兩者最主要的區(qū)別如下：

目標(biāo)重識(shí)別：給定一張切好塊的行人圖像 (probe image, 即圖像大部分內(nèi)容只包含這個(gè)人), 從一大堆切好塊的圖像 (gallery images) 中找到跟probe image中同一身份的人的圖像。這些圖像通常是由不同攝像頭拍攝的不連續(xù)幀。
跟蹤：給定一張切好塊的行人圖像 (probe image), 從一段全景視頻 (panorama track, 視野中只有一小部分是這個(gè)行人) 中找到 probe 所在的位置。這段全景視頻是由單個(gè)攝像頭拍攝的連續(xù)幀。

在視頻監(jiān)控領(lǐng)域，最終目標(biāo)是要做到多目標(biāo)跨攝像頭跟蹤 (Multi-target Multi-camera Tracking, 簡(jiǎn)稱MTMC Tracking)。而目標(biāo)重識(shí)別和行人跟蹤都是為了達(dá)到這個(gè)最終目標(biāo)的子任務(wù)。

今天我們具體來(lái)說(shuō)說(shuō)目標(biāo)重識(shí)別。通過(guò)回顧基于CNN的方法，我們發(fā)現(xiàn)了兩個(gè)在目標(biāo)重識(shí)別領(lǐng)域沒有得到很好解決的重要問(wèn)題。

(1) 在全局范圍內(nèi)利用豐富的結(jié)構(gòu)模式對(duì)于目標(biāo)重識(shí)別至關(guān)重要。然而，由于感受野存在一個(gè)高斯核的衰減，基于CNN的方法主要關(guān)注小的判別區(qū)域。最近，已經(jīng)引入了注意力模塊來(lái)探索遠(yuǎn)程依賴關(guān)系，但其中大部分都嵌入在深層中，并沒有解決CNN的原理問(wèn)題。因此，基于注意力的方法仍然更喜歡大的連續(xù)區(qū)域，并且難以提取多個(gè)多樣化的判別部分（見下圖 1）

(a) Original images, (b) CNN-based methods, (c) CNN+attention methods, (d) Transformer-based methods

(2) 具有詳細(xì)信息的細(xì)粒度特征也很重要。然而，CNN的下采樣算子（例如池化和跨步卷積）降低了輸出特征圖的空間分辨率，這極大地影響了區(qū)分具有相似外觀目標(biāo)的能力。如下圖所示，基于CNN的特征圖丟失了背包的細(xì)節(jié)，難以區(qū)分兩個(gè)人。

如上圖中的這對(duì)負(fù)樣本對(duì)（CNN識(shí)別錯(cuò)誤，Transformer識(shí)別正確），兩張圖片的外觀特征是非常相似的，但是從書包的細(xì)節(jié)可以看出，左邊書包側(cè)面有一個(gè)杯子，而右邊書包側(cè)面則沒有杯子，因此可以判斷是兩個(gè)ID。但是因此CNN的下采樣操作，在網(wǎng)絡(luò)最后輸出的特征圖上已經(jīng)看不清杯子這個(gè)細(xì)節(jié)了。但是Transformer沒有下采樣操作，因此特征圖能夠比較好地保留細(xì)節(jié)信息，從而識(shí)別目標(biāo)。

新框架

具體來(lái)說(shuō)，研究者首先將圖像編碼為一系列補(bǔ)丁，并通過(guò)一些關(guān)鍵改進(jìn)構(gòu)建基于transformer的強(qiáng)基線，這在使用基于CNN的方法的多個(gè)ReID基準(zhǔn)測(cè)試中取得了有競(jìng)爭(zhēng)力的結(jié)果。為了進(jìn)一步增強(qiáng)transformer上下文中的穩(wěn)健特征學(xué)習(xí)，精心設(shè)計(jì)了兩個(gè)新穎的模塊。

(i) Jigsaw Patch Module (JPM) 被提出通過(guò)移位和補(bǔ)丁混洗操作重新排列補(bǔ)丁嵌入，從而生成具有改進(jìn)識(shí)別能力和更多樣化覆蓋范圍的魯棒特征。

(ii) Side Information Embeddings (SIE) 以通過(guò)插入可學(xué)習(xí)的嵌入來(lái)合并這些非視覺線索來(lái)減輕對(duì)相機(jī)/視圖變化的特征偏差。

據(jù)我們所知，這是第一項(xiàng)采用純transformer進(jìn)行ReID研究的工作。TransReID的實(shí)驗(yàn)結(jié)果非常有前途，在人和車輛ReID基準(zhǔn)測(cè)試中都達(dá)到了最先進(jìn)的性能。

Transformer-based strong baseline

研究者參考CNN的baseline BoT設(shè)計(jì)Transformer-based strong baseline。如下圖所示。

研究者參考ViT將圖片分成N個(gè)patch，并引入一個(gè)額外的cls token共N+1個(gè)embedding。經(jīng)過(guò)Transformer layers之后將cls token作為圖像的全局特征，之后經(jīng)過(guò)一個(gè)BNNeck結(jié)構(gòu)計(jì)算triplet loss和分類ID loss。

此外，還有一個(gè)技巧性操作，是對(duì)圖像進(jìn)行patch分塊的時(shí)候可以讓相鄰的patch之間有一定的overlap。當(dāng)然這個(gè)操作會(huì)使得patch數(shù)目增加從而使得模型訓(xùn)練的資源消耗增加，但是性能也會(huì)有比較穩(wěn)定提升。

Jigsaw Patch Module

ReID任務(wù)經(jīng)常會(huì)遇到遮擋、不對(duì)齊這些問(wèn)題，一般會(huì)采用細(xì)粒度的局部特征來(lái)處理這些問(wèn)題，水平切塊就是非常常用的一種局部特征方法。

為了擴(kuò)大每個(gè)group的視野，研究者將所有的patch embedding按照一定規(guī)則進(jìn)行打亂，然后再進(jìn)行分組。這樣每個(gè)group就可能包含來(lái)自圖片不同區(qū)域的patch，近似等效于每個(gè)group都有比較全局的感受野。

具體打亂操作分為兩步：

Side Information Embeddings

ReID任務(wù)中相機(jī)、視角的差異會(huì)給圖像帶來(lái)一些外觀上的差異。對(duì)于CNN框架，通常需要專門設(shè)計(jì)結(jié)構(gòu)來(lái)處理這個(gè)問(wèn)題，例如設(shè)計(jì)loss、對(duì)數(shù)據(jù)進(jìn)行先驗(yàn)處理、改變模型結(jié)構(gòu)等等。這些設(shè)計(jì)通常比較定制化且比較復(fù)雜，推廣性并不強(qiáng)。而transformer則比較擅長(zhǎng)融合不同模態(tài)的信息，因此研究者提出了SIE模塊來(lái)利用相機(jī)ID、視角等輔助信息。

實(shí)驗(yàn)及分析

論文中使用的數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)

不同Backbone的對(duì)比

下表給出了不同Backbone的準(zhǔn)確度和推理時(shí)間的對(duì)比，將ResNet50作為baseline，同時(shí)給出了ViT和DeiT的結(jié)果。

可以看到，DeiT-S/16在速度上與ResNet50是接近的，在準(zhǔn)確度上同樣也有可比的性能。當(dāng)使用更深的DeiT-B/16和DeiT-V/16時(shí)，同樣和ResNest50取得了相似的速度和準(zhǔn)確度。當(dāng)在pre-patch環(huán)節(jié)縮小conv的stride時(shí)，patch的數(shù)目增加，速度下降，但是準(zhǔn)確度也會(huì)收獲穩(wěn)定的提升。

和SOTA對(duì)比

下表給出了和SOTA方法對(duì)比的結(jié)果。

可以看到，和CNN的方法相比，TransReID在六個(gè)ReID數(shù)據(jù)集上取得了更好的準(zhǔn)確度，這顯示了pure transformer架構(gòu)在圖像檢索任務(wù)上同樣適用。在ImageNet上取得更好分?jǐn)?shù)的DeiT在下游的ReID任務(wù)上并沒有超過(guò)ViT。這是因?yàn)閂iT使用了更大的ImageNet22K做預(yù)訓(xùn)練，更大的預(yù)訓(xùn)練數(shù)據(jù)使得ViT有更好的遷移性。

可視化