ECCV 2022|通往數(shù)據(jù)高效的Transformer目標檢測器
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/545435909編輯丨極市平臺 導(dǎo)讀
本文圍繞Detection Transformer數(shù)據(jù)效率低下的問題,通過逐步的模型轉(zhuǎn)化找到了影響數(shù)據(jù)效率的關(guān)鍵因素。作者成功用盡可能小的模型改動來大幅提升現(xiàn)有目標檢測器的數(shù)據(jù)效率,并提出一種標簽增強策略進一步提升其性能讀。
論文鏈接:https://arxiv.org/abs/2203.09507代碼鏈接:https://github.com/encounter1997/DE-DETRshttps://github.com/encounter1997/DE-CondDETR大家好!本文介紹一下我們中稿今年ECCV的一項工作:Towards Data-Efficient Detection Transformers。對目標檢測模型所需要的數(shù)據(jù)進行標注往往是十分繁重的工作,因為它要求對圖像中可能存在的多個物體的位置和類別進行標注。本文旨在減少Detection Transformer類目標檢測器對標注數(shù)據(jù)的依賴程度,提升其數(shù)據(jù)效率。Detection Transformer于2020年ECCV被提出,作為一種新興的目標檢測方法,Detection Transformers以其簡潔而優(yōu)雅的框架取得了越來越多的關(guān)注。關(guān)于Detection Transformer的細節(jié)和后續(xù)的發(fā)展歷程,本文并不作展開介紹,感興趣的小伙伴可以參考以下知乎文章:DETR目標檢測新范式帶來的思考 (https://zhuanlan.zhihu.com/p/366938351)
研究動機Detection Transformer的開山之作是DETR[1],在常用的目標檢測數(shù)據(jù)集COCO[2]上,DETR取得了比Faster RCNN[3]更好的性能,但其收斂速度顯著慢于基于CNN的檢測器。為此,后續(xù)的工作大多致力于提升DETR的收斂性[4,5,6,7]。在COCO數(shù)據(jù)集上這些后續(xù)方法能夠在訓(xùn)練代價相當?shù)那闆r下取得比Faster RCNN更好的性能,表現(xiàn)出了Detection Transformers的優(yōu)越性。圖1:不同目標檢測模型在數(shù)據(jù)量充足的COCO和小數(shù)據(jù)集Cityscapes上的性能對比,模型名稱下方的數(shù)字表示訓(xùn)練周期數(shù)。目前的研究似乎表明Detection Transformers能夠在性能、簡潔性和通用性等方面全面超越基于CNN的目標檢測器。但我們研究發(fā)現(xiàn),只有在COCO這樣訓(xùn)練數(shù)據(jù)豐富(約118k訓(xùn)練圖像)的數(shù)據(jù)集上Detection Transformers能夠表現(xiàn)出性能上的優(yōu)越,而當訓(xùn)練數(shù)據(jù)量較小時,大多數(shù)Detection Transformers的性能下降顯著。如圖1所示,在常用的自動駕駛數(shù)據(jù)集Cityscapes[8](約3k訓(xùn)練圖像)上,盡管Faster RCNN能夠穩(wěn)定的取得優(yōu)良的性能,大多數(shù)Detection Transformers的性能顯著下降。并且盡管不同Detection Transformers在COCO數(shù)據(jù)集上性能差異不到2AP,它們在小數(shù)據(jù)集Cityscapes上的性能有大于15AP的顯著差異。這些發(fā)現(xiàn)表明Detection Transformers相比于基于CNN的目標檢測器更加依賴標注數(shù)據(jù)(data hungry)。然而標注數(shù)據(jù)的獲得并非易事,尤其是對于目標檢測任務(wù)而言,不僅需要標出多個物體的類別標簽,還需要準備的標出物體的定位框。同時,訓(xùn)練數(shù)據(jù)量大,意味著訓(xùn)練迭代次數(shù)多,因此訓(xùn)練Detection Transformers需要消耗更多的算力,增加了碳排放。可見,要滿足現(xiàn)有Detection Transformers的訓(xùn)練要求需要耗費大量的人力物力。
消融探究表1:從SparseRCNN(表中縮寫為SRCN)到DETR的模型轉(zhuǎn)化為了尋找影響Data-efficiency的關(guān)鍵因素,我們將data efficient的RCNN逐步轉(zhuǎn)化為data hungry的Detection Transformer檢測器,來消融不同設(shè)計的影響。值得一提的是,ATSS[9]和Visformer[10]采用了類似的模型轉(zhuǎn)化實驗,但ATSS旨在尋找anchor free檢測器和anchor-based檢測器之間的本質(zhì)區(qū)別,Visformer旨在尋找對分類任務(wù)有利的transformer backbone結(jié)構(gòu),而我們致力于尋找影響Detection Transformers數(shù)據(jù)效率的主要因素。為了從模型轉(zhuǎn)化中獲得insightful的結(jié)果,我們需要選擇合適檢測器展開實驗。綜合一下因素,我們選擇Sparse RCNN和DETR來展開實驗:(1)它們分別是RCNN和Detection Transformer中有代表性的檢測器;(2)二者有很多相似的地方,比如相同的優(yōu)化器、標簽匹配、損失設(shè)計、數(shù)據(jù)增強和端到端等,這有利于我們盡可能排除其他影響因素的干擾,專注于核心的區(qū)別;(3)二者在data efficiency上存在顯著差異。模型轉(zhuǎn)化過程如表1所示,接下來,我們挑選模型轉(zhuǎn)化中的關(guān)鍵步驟進行介紹:去除FPN。由于CNNs具有局部性,F(xiàn)PN中能夠以較小的計算代價實現(xiàn)多尺度特征融合,從而在少量數(shù)據(jù)的情況下提升目標檢測的性能。對比之下,DETR中的attention機制具有全局感受野,導(dǎo)致其在高分辨率的特征圖上需要消耗大量的運算資源,因此在DETR上做多尺度特征的建模往往是難以實現(xiàn)的。在本步中,我們?nèi)コ齊CNN中的FPN,并且與DETR一致,我們僅將backbone中32倍下采樣的特征送入檢測頭做RoI Align和后續(xù)解碼和預(yù)測。和預(yù)期的一樣,去除FPN的多尺度建模作用,在50代的訓(xùn)練周期下模型性能下降顯著by 7.3 AP。加入Transformer編碼器。在DETR中,transformer編碼器可以看作是檢測器中的neck,用來對backbone提取的特征做增強。在去除FPN neck后,我們將DETR的編碼器加入模型得到表1中的Net3。有趣的是,Net3在50個訓(xùn)練周期下的性能下降,而在300個訓(xùn)練周期下性能有所提升。我們猜想像ViT[11]一樣,****中的attention具有平方復(fù)雜度,因此需要更長的訓(xùn)練周期來收斂并體現(xiàn)其優(yōu)勢。將動態(tài)卷積替換為自注意力機制。SparseRCNN中一個非常有趣的設(shè)計是****中的動態(tài)卷積,它的作用和DETR中的cross-attention作用十分相似,即根據(jù)圖像特征和特定object candidate的相似性,自適應(yīng)地將圖像中的信息聚合到object candidate中。在本步驟中,我們將動態(tài)替換為cross-attention,對應(yīng)的結(jié)果如表中Net4所示。反直覺的,參數(shù)量大并不一定會使模型更依賴數(shù)據(jù)。事實上,含有大量參數(shù)的動態(tài)卷積能夠比參數(shù)量很小的cross-attention表現(xiàn)出了更好的數(shù)據(jù)效率。去除RoIAlign。SparseRCNN和RCNNs family中的其他檢測器一樣根據(jù)目標檢測的候選框?qū)D像中指定區(qū)域的特征做采樣,再基于采樣后的特征做預(yù)測。對比之下,DETR中content query直接從圖像的全局特征中聚合特定物體的信息。在本步驟,我們?nèi)コ齊oI Align操作??梢钥吹剑P偷男阅馨l(fā)生了顯著下降。我們猜想從全局特征中學(xué)習(xí)如何關(guān)注到包含特定物體的局部區(qū)域是non-trivial的,因此模型需要從更多的數(shù)據(jù)和訓(xùn)練周期中學(xué)習(xí)到locality的特性。而在見過的數(shù)據(jù)量小的情況下性能會顯著下降。去除初始的proposal。最后,DETR直接預(yù)測normalized檢測框中心坐標和寬度和高度,而RCNNs預(yù)測gt檢測框相較于初始proposal檢測框的offsets。在本步驟中,我們消除此差異。這一微小的區(qū)別使得模型性能顯著下降,我們猜想這是因為初始的proposal能夠作為一種空間位置上的先驗,幫助模型關(guān)注特定的物體區(qū)域,從而降低了從大量數(shù)據(jù)中學(xué)習(xí)關(guān)注局部區(qū)域的需要。總結(jié): 綜上,可以看出以下因素對模型的data efficiency其關(guān)鍵作用:(1)從局部區(qū)域的稀疏特征采樣,例如采用RoIAlign;(2)多尺度特征融合,而這依賴于稀疏特征采樣使得其運算量變得可接受;(3)相較于初始的空間位置先驗作預(yù)測。其中(1)和(3)有利于模型關(guān)注到特定的物體區(qū)域,緩解從大量數(shù)據(jù)中學(xué)習(xí)locality的困難。(2)有利于充分利用和增強圖像的特征,但其也依賴于稀疏特征。值得一提的是,在DETR family中,Deformable DETR[4]是一個特例,它具有較好的數(shù)據(jù)效率。而我們基于Sparse RCNN和DETR的模型轉(zhuǎn)化實驗得到的結(jié)論同樣也能夠說明為什么Deformable DETR的具有較好的數(shù)據(jù)集效率:Multi-scale Deformable Attention從圖像局部區(qū)域內(nèi)做特征的稀疏采樣,并運用了多尺度特征,同時模型的預(yù)測是相對于初始的reference point的。
我們的方法模型增強圖2:我們的數(shù)據(jù)高效Detection Transformer模型結(jié)構(gòu)。我們力求在盡可能少改動原模型的情況下,提升其數(shù)據(jù)效率。模型的backbone、transformer編碼器和第一個****層均未變化
局部特征采樣。從模型轉(zhuǎn)化中的分析中可以看出,從局部物體區(qū)域做特征采樣對實現(xiàn)數(shù)據(jù)效率是至關(guān)重要的。幸運的是,在Detection Transformer中,由于Deep Supervision[12]的存在,每一層****層中都為我們提供了物體檢測框的信息。因此,我們可以在不引入新的參數(shù)的情況下,借助這些物體定位框來做局部特征采樣。盡管可以采用更成熟的特征采用方法,我們采用最常用的RoI Align。從第二層****層開始,我們借助前一層****的輸出來做稀疏特征采樣。迭代式預(yù)測和初始參考點。此外,Detection Transformer中級聯(lián)的結(jié)構(gòu)很自然地適合使用迭代式的檢測框refinement來提升檢測的性能。我們在模型轉(zhuǎn)換中的實驗也表明,迭代式的預(yù)測以及相對于初始的空間參考做預(yù)測有利于實現(xiàn)更準確的目標檢測。為此,我們引入檢測框的迭代式refinement和初始參考點。多尺度特征融合。多尺度特征的運用有利于特征的高效利用,能夠在數(shù)據(jù)量小的情況下提升檢測性能。而我們的稀疏特征采樣也使得在Detection Transformer中使用多尺度特征成為可能。盡管更成熟的多尺度融合技術(shù)可能被使用,我們僅僅利用bbox作為指導(dǎo),對不同尺度的特征做RoIAlign,并將得到的序列concatenate在一起。標簽增強圖3:(a)現(xiàn)有Detection Transformer的標簽分配方式;(b)使用標簽增強后的標簽分配。圓圈和矩形框分別表示模型的預(yù)測和圖片上的物體標注。通過復(fù)制橙色方框表示的物體標注,藍色圓圈表示的模型預(yù)測也在標簽分配中匹配到了正樣本,因此得到了更豐富的監(jiān)督信號。盡管一對一的標簽匹配形式簡單,并能夠避免去重過程,但也使得在每次迭代中,只有少量的檢測候選能夠得到有效的監(jiān)督。模型不得不從更大量的數(shù)據(jù)或者更多的訓(xùn)練周期中獲得足夠的監(jiān)督信號。為了解決這一問題,我們提出一種標簽增強策略,通過在二分圖匹配過程中重復(fù)正樣本,來為Detection Transformer提供更豐富的監(jiān)督信號,如圖3所示。在實現(xiàn)過程中,我們考慮兩種不同的方式來復(fù)制正樣本的標簽:(1)固定重復(fù)次數(shù)(Fixed Repeat Time):我們對所有正樣本標簽重復(fù)相同的次數(shù);(2)固定正負樣本標簽的比例(Fixed positive-negative ratio):我們對正樣本的標簽進行重復(fù)采樣,最終保證標簽集合中正樣本的比例固定。默認的,我們采用固定重復(fù)兩次的標簽增強方式。
實驗表2:不同方法在小數(shù)據(jù)集Cityscapes上的性能比較在本部分,我們首先將我們的方法和現(xiàn)有的Detection Transformer進行比較。如表2所示,大部分Detection Transformer面臨數(shù)據(jù)效率低下的問題。而我們的DE-CondDETR在對CondDETR模型做微小改動的情況下能夠取得和Deformable DETR相當?shù)臄?shù)據(jù)效率。而輔助以標簽增強提供的更豐富的監(jiān)督,我們的DELA-CondDETR能夠取得比Deformable DETR更佳的性能。同樣的,我們的方法也能夠與其他Detection Transformer結(jié)合來顯著提升其data efficiency,例如我們的DE-DETR和DElA-DETR能夠在以僅僅50周期取得比DETR 500個周期要顯著優(yōu)越的性能。圖4:不同方法在下采樣的COCO數(shù)據(jù)集上的性能比較。橫軸表示數(shù)據(jù)下采樣的比例(對數(shù)scale)。此外我們對COCO 2017中的訓(xùn)練數(shù)據(jù)進行訓(xùn)練圖像0.1,0.05,0.02和0.01倍的采樣,來觀察模型在不同數(shù)據(jù)量下的性能。如圖4所示,在不同的訓(xùn)練數(shù)據(jù)量下,我們的方法始終能夠取得顯著優(yōu)于基線方法的性能。特別的,僅用0.01倍的數(shù)據(jù)DELA-DETR的性能顯著優(yōu)于使用五倍數(shù)據(jù)的DETR基線。類似的,DELA-CondDETR性能始終優(yōu)于用兩倍數(shù)據(jù)訓(xùn)練的CondDETR基線。表3:對模型中不同組件的消融實驗我們首先消融我們方法中各個模塊的作用,如表3所示。使用局部特征采樣和多尺度特征均能夠顯著提升模型的性能,分別帶來8.3 AP和6.4 AP的提升。此外,使用標簽增強能夠進一步帶來2.7 AP的性能提升。并且單獨使用標簽增強也能夠帶來2.6的性能提升。對標簽增強的消融研究如方法部分中討論的,我們考慮了兩種標簽增強策略。包括固定重復(fù)次數(shù)和固定正負樣本比例。在本部分,我們對這兩種策略進行消融。如上表中左表所示,使用不同的固定重復(fù)倍數(shù)均能夠提升DE-DETR的性能,但隨重復(fù)次數(shù)增加,性能提升呈下降趨勢。我們默認采用重復(fù)正樣本標簽2次。此外,如右表所示,盡管使用不同正負樣本比例均能帶來性能提升,在正負樣本比例為1:3時,其取得的性能最佳,有趣的是,這也是RCNN系列檢測器如Faster RCNN中最常用正負樣本采樣比例。在訓(xùn)練數(shù)據(jù)充足的COCO 2017上的性能比較,所有模型都訓(xùn)練50個周期盡管以上實驗說明了我們的方法能夠在數(shù)據(jù)量有限的情況下顯著提升模型性能,它并不能表明我們的方法在數(shù)據(jù)量充足時依然有效。為此,我們在數(shù)據(jù)量充足的COCO2017上測試我們方法的性能。有趣的是,我們的方法不僅不會降低模型在COCO 2017上的性能,還能帶來不小的提升。具體來說,DELA-DETR和DELA-CondDETR分別相較于它們的baseline提升8.1AP和2.8AP。圖5:不同模型在Cityscapes數(shù)據(jù)集上的收斂曲線,橫軸表示訓(xùn)練周期數(shù),縱軸表示mAP最后,為了對本文方法帶來的性能提升有一個直觀的感受,我們提供了不同DETR變種在Cityscapes數(shù)據(jù)集上的收斂曲線,如圖5所示??梢钥闯觯覀兊姆椒軌蛞愿俚挠?xùn)練代價取得更加優(yōu)越的性能,展示了其優(yōu)越的數(shù)據(jù)效率。更多實驗結(jié)果請參考原文及其附加材料。
總結(jié)在本文中,我們指出了Detection Transformer數(shù)據(jù)效率低下的問題,并通過逐步的模型轉(zhuǎn)化找了影響數(shù)據(jù)效率的關(guān)鍵因素。隨后,我們以盡可能小的模型改動來大幅提升現(xiàn)有Detection Transformer的數(shù)據(jù)效率,并提出一種標簽增強策略進一步提升其性能。隨著Transformer在視覺任務(wù)中越發(fā)流行,我們希望我們的工作能夠激發(fā)社區(qū)探究和提升Transformer在不同任務(wù)上的數(shù)據(jù)效率。
參考文獻
End-to-end Object Detection with Transformers
Microsoft COCO: Common Objects in Context
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Deformable DETR: Deformable Transformers for End-to-End Object Detection
Conditional DETR for Fast Training Convergence
PnP-DETR: Towards Efficient Visual Analysis with Transformers
Fast Convergence of DETR with Spatially Modulated Co-Attention
The Cityscapes Dataset for Semantic Urban Scene Understanding
Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
Visformer: The Vision-Friendly Transformer
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Deeply-Supervised Nets
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。