ICCV:阿里達(dá)摩院將Transformer應(yīng)用于目標(biāo)重識(shí)別,效果顯著
論文地址:https://arxiv.org/pdf/2102.04378.pdf
開源代碼:https://github. com/heshuting555/TransReID
1
前言
提取穩(wěn)健的特征表示是目標(biāo)重識(shí)別 (ReID) 的關(guān)鍵挑戰(zhàn)之一。盡管基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的方法取得了巨大成功,但它們一次只處理一個(gè)局部鄰域,并且會(huì)因卷積和下采樣算子(例如池化和跨步卷積)導(dǎo)致細(xì)節(jié)信息丟失。為了克服這些限制,研究者提出了一個(gè)名為TransReID的純基于transformer的目標(biāo)ReID框架。2
背景
ReID全稱Re-identification,也就是目標(biāo)重識(shí)別的意思。簡(jiǎn)單理解就是對(duì)于一個(gè)特定的目標(biāo)(可能是行人、車輛、人臉或者其他特定物體),在候選圖像集中檢索到它。或稱圖像中目標(biāo)的實(shí)例級(jí)檢索。
目標(biāo)重識(shí)別(ReID)與跟蹤(Tracking)有什么區(qū)別?從任務(wù)的角度來(lái)看,兩者最主要的區(qū)別如下:
目標(biāo)重識(shí)別:給定一張切好塊的行人圖像 (probe image, 即圖像大部分內(nèi)容只包含這個(gè)人), 從一大堆切好塊的圖像 (gallery images) 中找到跟probe image中同一身份的人的圖像。這些圖像通常是由不同攝像頭拍攝的不連續(xù)幀。
跟蹤:給定一張切好塊的行人圖像 (probe image), 從一段全景視頻 (panorama track, 視野中只有一小部分是這個(gè)行人) 中找到 probe 所在的位置。這段全景視頻是由單個(gè)攝像頭拍攝的連續(xù)幀。
在視頻監(jiān)控領(lǐng)域,最終目標(biāo)是要做到多目標(biāo)跨攝像頭跟蹤 (Multi-target Multi-camera Tracking, 簡(jiǎn)稱MTMC Tracking)。而目標(biāo)重識(shí)別和行人跟蹤都是為了達(dá)到這個(gè)最終目標(biāo)的子任務(wù)。
今天我們具體來(lái)說(shuō)說(shuō)目標(biāo)重識(shí)別。通過(guò)回顧基于CNN的方法,我們發(fā)現(xiàn)了兩個(gè)在目標(biāo)重識(shí)別領(lǐng)域沒有得到很好解決的重要問(wèn)題。
(1) 在全局范圍內(nèi)利用豐富的結(jié)構(gòu)模式對(duì)于目標(biāo)重識(shí)別至關(guān)重要。然而,由于感受野存在一個(gè)高斯核的衰減,基于CNN的方法主要關(guān)注小的判別區(qū)域。最近,已經(jīng)引入了注意力模塊 來(lái)探索遠(yuǎn)程依賴關(guān)系,但其中大部分都嵌入在深層中,并沒有解決CNN的原理問(wèn)題。因此,基于注意力的方法仍然更喜歡大的連續(xù)區(qū)域,并且難以提取多個(gè)多樣化的判別部分(見下圖 1)
(a) Original images, (b) CNN-based methods, (c) CNN+attention methods, (d) Transformer-based methods
(2) 具有詳細(xì)信息的細(xì)粒度特征也很重要。然而,CNN的下采樣算子(例如池化和跨步卷積)降低了輸出特征圖的空間分辨率,這極大地影響了區(qū)分具有相似外觀目標(biāo)的能力。如下圖所示,基于CNN的特征圖丟失了背包的細(xì)節(jié),難以區(qū)分兩個(gè)人。
如上圖中的這對(duì)負(fù)樣本對(duì)(CNN識(shí)別錯(cuò)誤,Transformer識(shí)別正確),兩張圖片的外觀特征是非常相似的,但是從書包的細(xì)節(jié)可以看出,左邊書包側(cè)面有一個(gè)杯子,而右邊書包側(cè)面則沒有杯子,因此可以判斷是兩個(gè)ID。但是因此CNN的下采樣操作,在網(wǎng)絡(luò)最后輸出的特征圖上已經(jīng)看不清杯子這個(gè)細(xì)節(jié)了。但是Transformer沒有下采樣操作,因此特征圖能夠比較好地保留細(xì)節(jié)信息,從而識(shí)別目標(biāo)。
3
新框架
具體來(lái)說(shuō),研究者首先將圖像編碼為一系列補(bǔ)丁,并通過(guò)一些關(guān)鍵改進(jìn)構(gòu)建基于transformer的強(qiáng)基線,這在使用基于CNN的方法的多個(gè)ReID基準(zhǔn)測(cè)試中取得了有競(jìng)爭(zhēng)力的結(jié)果。為了進(jìn)一步增強(qiáng)transformer上下文中的穩(wěn)健特征學(xué)習(xí),精心設(shè)計(jì)了兩個(gè)新穎的模塊。
(i) Jigsaw Patch Module (JPM) 被提出通過(guò)移位和補(bǔ)丁混洗操作重新排列補(bǔ)丁嵌入,從而生成具有改進(jìn)識(shí)別能力和更多樣化覆蓋范圍的魯棒特征。
(ii) Side Information Embeddings (SIE) 以通過(guò)插入可學(xué)習(xí)的嵌入來(lái)合并這些非視覺線索來(lái)減輕對(duì)相機(jī)/視圖變化的特征偏差。
據(jù)我們所知,這是第一項(xiàng)采用純transformer進(jìn)行ReID研究的工作。TransReID的實(shí)驗(yàn)結(jié)果非常有前途,在人和車輛ReID基準(zhǔn)測(cè)試中都達(dá)到了最先進(jìn)的性能。
Transformer-based strong baseline
研究者參考CNN的baseline BoT設(shè)計(jì)Transformer-based strong baseline。如下圖所示。
研究者參考ViT將圖片分成N個(gè)patch,并引入一個(gè)額外的cls token共N+1個(gè)embedding。經(jīng)過(guò)Transformer layers之后將cls token作為圖像的全局特征,之后經(jīng)過(guò)一個(gè)BNNeck結(jié)構(gòu)計(jì)算triplet loss和分類ID loss。
此外,還有一個(gè)技巧性操作,是對(duì)圖像進(jìn)行patch分塊的時(shí)候可以讓相鄰的patch之間有一定的overlap。當(dāng)然這個(gè)操作會(huì)使得patch數(shù)目增加從而使得模型訓(xùn)練的資源消耗增加,但是性能也會(huì)有比較穩(wěn)定提升。
Jigsaw Patch Module
ReID任務(wù)經(jīng)常會(huì)遇到遮擋、不對(duì)齊這些問(wèn)題,一般會(huì)采用細(xì)粒度的局部特征來(lái)處理這些問(wèn)題,水平切塊就是非常常用的一種局部特征方法。
為了擴(kuò)大每個(gè)group的視野,研究者將所有的patch embedding按照一定規(guī)則進(jìn)行打亂,然后再進(jìn)行分組。這樣每個(gè)group就可能包含來(lái)自圖片不同區(qū)域的patch,近似等效于每個(gè)group都有比較全局的感受野。
具體打亂操作分為兩步:
Side Information Embeddings
ReID任務(wù)中相機(jī)、視角的差異會(huì)給圖像帶來(lái)一些外觀上的差異。對(duì)于CNN框架,通常需要專門設(shè)計(jì)結(jié)構(gòu)來(lái)處理這個(gè)問(wèn)題,例如設(shè)計(jì)loss、對(duì)數(shù)據(jù)進(jìn)行先驗(yàn)處理、改變模型結(jié)構(gòu)等等。這些設(shè)計(jì)通常比較定制化且比較復(fù)雜,推廣性并不強(qiáng)。而transformer則比較擅長(zhǎng)融合不同模態(tài)的信息,因此研究者提出了SIE模塊來(lái)利用相機(jī)ID、視角等輔助信息。
4
實(shí)驗(yàn)及分析
論文中使用的數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)
不同Backbone的對(duì)比
下表給出了不同Backbone的準(zhǔn)確度和推理時(shí)間的對(duì)比,將ResNet50作為baseline,同時(shí)給出了ViT和DeiT的結(jié)果。
可以看到,DeiT-S/16在速度上與ResNet50是接近的,在準(zhǔn)確度上同樣也有可比的性能。當(dāng)使用更深的DeiT-B/16和DeiT-V/16時(shí),同樣和ResNest50取得了相似的速度和準(zhǔn)確度。當(dāng)在pre-patch環(huán)節(jié)縮小conv的stride時(shí),patch的數(shù)目增加,速度下降,但是準(zhǔn)確度也會(huì)收獲穩(wěn)定的提升。
和SOTA對(duì)比
下表給出了和SOTA方法對(duì)比的結(jié)果。
可以看到,和CNN的方法相比,TransReID在六個(gè)ReID數(shù)據(jù)集上取得了更好的準(zhǔn)確度,這顯示了pure transformer架構(gòu)在圖像檢索任務(wù)上同樣適用。在ImageNet上取得更好分?jǐn)?shù)的DeiT在下游的ReID任務(wù)上并沒有超過(guò)ViT。這是因?yàn)閂iT使用了更大的ImageNet22K做預(yù)訓(xùn)練,更大的預(yù)訓(xùn)練數(shù)據(jù)使得ViT有更好的遷移性。
可視化
(a) Input images, (b) Baseline, (c) JPM w/o rearrange, (d) JPM.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。