CVPR2022:使用完全交叉Transformer的小樣本目標(biāo)檢測
論文地址:
https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf
01
概述
小樣本目標(biāo)檢測 (FSOD) 旨在使用很少的訓(xùn)練示例檢測新目標(biāo),最近在社區(qū)中引起了極大的研究興趣。已經(jīng)證明基于度量學(xué)習(xí)的方法使用基于雙分支的孿生網(wǎng)絡(luò)對這項(xiàng)任務(wù)有效,并計(jì)算圖像區(qū)域和少樣本示例之間的相似性以進(jìn)行檢測。然而,在之前的工作中,兩個(gè)分支之間的交互只限于檢測頭,而剩下的數(shù)百層用于單獨(dú)的特征提取。受最近關(guān)于視覺轉(zhuǎn)換器和視覺語言轉(zhuǎn)換器的工作的啟發(fā),研究者提出了一種新穎的基于完全交叉轉(zhuǎn)換器(Fully Cross-Transformer)的FSOD模型 (FCT),方法是將交叉轉(zhuǎn)換器整合到特征主干和檢測頭中。提出了非對稱批處理交叉注意來聚合來自具有不同批處理大小的兩個(gè)分支的關(guān)鍵信息。新模型可以通過引入多級交互來改善兩個(gè)分支之間的少樣本相似性學(xué)習(xí)。PASCAL VOC和MSCOCO FSOD基準(zhǔn)的綜合實(shí)驗(yàn)證明了我們模型的有效性。
02
背景
以往小樣本檢測方法大致可以分為倆類:single-branch方法和two-branch方法;前者通常是基于Faster RCNN進(jìn)行finetuned,需構(gòu)建multi-class classifier;但該方法針對shot比較少例如1-shot時(shí),較為容易出現(xiàn)過擬合情況;而后者通常時(shí)構(gòu)建siamese網(wǎng)絡(luò),分別同時(shí)提取query特征和support特征,然后基于metric learning方法比如feature fusion,feature alignment,GCN或者non-local attention來計(jì)算倆分支的相似性,由于在Novel類別上無需構(gòu)建multi-class classifier,所以泛化性更好;倆類方法大致差異如下圖所示:
03
新框架
Task Definition
在小樣本目標(biāo)檢測(FSOD)中,有兩組類C=Cbase∪Cnovel和Cbase∩Cnovel=?,其中基類Cbase每個(gè)類都有大量訓(xùn)練數(shù)據(jù),而新類Cnovel(也稱為支持類)只有每個(gè)類的訓(xùn)練示例很少(也稱為支持圖像)。對于K-shot(例如,K=1,5,10)目標(biāo)檢測,研究者為每個(gè)新類別c∈Cnovel準(zhǔn)確地使用K個(gè)邊界框注釋作為訓(xùn)練數(shù)據(jù)。FSOD的目標(biāo)是利用數(shù)據(jù)豐富的基類來協(xié)助檢測少樣本的新類。
Overview of Our Proposed Model (FCT)
研究者認(rèn)為以往的two-branch方法只關(guān)注了detection head部分的特征交互,忽略了特征提取部分;于是這篇論文的motivation就出來了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小樣本檢測方法,在每個(gè)階段都進(jìn)行特征交互。如下圖所示:
The Cross-Transformer Feature Backbone
在cross-transformer中計(jì)算Q-K-V attention時(shí)為了減少計(jì)算量,研究者采用了PVTv2的方式。上面大致介紹了query和support特征提取,在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具體做法如下圖和公式所示:
評論。研究者徹底研究了提出的模型中兩個(gè)視覺分支之間的多層次交互。cross-transformer特征主干中的三個(gè)階段使兩個(gè)分支與低級、中級和高級視覺特征逐漸有效交互。
The Cross-Transformer Detection Head
在detection head部分,和以上操作相反,在每張query上提取完proposal之后經(jīng)過ROI Align可以得到ROI特征fp∈RBp?H′?W′?C3,其中Bp=100,為了減少計(jì)算復(fù)雜度還是對support進(jìn)行ave操作fs′=1Bs∑Bsfs,fs′∈R1?H′?W′?C3,然后使用Asymmetric-Batched Cross-Attention計(jì)算倆分支attention,不同的是,query分支Bp≥1 and Bs′=1 。
04
實(shí)驗(yàn)
從上面表格的(c-d)倆行可以看出,使用三階段訓(xùn)練在2-shot、10-shot上均有提升。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)