色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > ECCV | 數(shù)據(jù)高效的Transformer目標(biāo)檢測器

          ECCV | 數(shù)據(jù)高效的Transformer目標(biāo)檢測器

          發(fā)布人:CV研究院 時(shí)間:2023-06-23 來源:工程師 發(fā)布文章

          01

          研究動(dòng)機(jī)



          Detection Transformer的開山之作是DETR[1],在常用的目標(biāo)檢測數(shù)據(jù)集COCO[2]上,DETR取得了比Faster RCNN[3]更好的性能,但其收斂速度顯著慢于基于CNN的檢測器。為此,后續(xù)的工作大多致力于提升DETR的收斂性[4,5,6,7]。在COCO數(shù)據(jù)集上這些后續(xù)方法能夠在訓(xùn)練代價(jià)相當(dāng)?shù)那闆r下取得比Faster RCNN更好的性能,表現(xiàn)出了Detection Transformers的優(yōu)越性。


          圖片

          圖1:不同目標(biāo)檢測模型在數(shù)據(jù)量充足的COCO和小數(shù)據(jù)集Cityscapes上的性能對比,模型名稱下方的數(shù)字表示訓(xùn)練周期數(shù)。


          目前的研究似乎表明Detection Transformers能夠在性能、簡潔性和通用性等方面全面超越基于CNN的目標(biāo)檢測器。但我們研究發(fā)現(xiàn),只有在COCO這樣訓(xùn)練數(shù)據(jù)豐富(約118k訓(xùn)練圖像)的數(shù)據(jù)集上Detection Transformers能夠表現(xiàn)出性能上的優(yōu)越,而當(dāng)訓(xùn)練數(shù)據(jù)量較小時(shí),大多數(shù)Detection Transformers的性能下降顯著。如圖1所示,在常用的自動(dòng)駕駛數(shù)據(jù)集Cityscapes[8](約3k訓(xùn)練圖像)上,盡管Faster RCNN能夠穩(wěn)定的取得優(yōu)良的性能,大多數(shù)Detection Transformers的性能顯著下降。并且盡管不同Detection Transformers在COCO數(shù)據(jù)集上性能差異不到2AP,它們在小數(shù)據(jù)集Cityscapes上的性能有大于15AP的顯著差異。


          這些發(fā)現(xiàn)表明Detection Transformers相比于基于CNN的目標(biāo)檢測器更加依賴標(biāo)注數(shù)據(jù)(data hungry)。然而標(biāo)注數(shù)據(jù)的獲得并非易事,尤其是對于目標(biāo)檢測任務(wù)而言,不僅需要標(biāo)出多個(gè)物體的類別標(biāo)簽,還需要準(zhǔn)備的標(biāo)出物體的定位框。同時(shí),訓(xùn)練數(shù)據(jù)量大,意味著訓(xùn)練迭代次數(shù)多,因此訓(xùn)練Detection Transformers需要消耗更多的算力,增加了碳排放。可見,要滿足現(xiàn)有Detection Transformers的訓(xùn)練要求需要耗費(fèi)大量的人力物力。


          02

          消融探究




          圖片

          表1:從SparseRCNN(表中縮寫為SRCN)到DETR的模型轉(zhuǎn)化


          為了尋找影響Data-efficiency的關(guān)鍵因素,我們將data efficient的RCNN逐步轉(zhuǎn)化為data hungry的Detection Transformer檢測器,來消融不同設(shè)計(jì)的影響。值得一提的是,ATSS[9]和Visformer[10]采用了類似的模型轉(zhuǎn)化實(shí)驗(yàn),但ATSS旨在尋找anchor free檢測器和anchor-based檢測器之間的本質(zhì)區(qū)別,Visformer旨在尋找對分類任務(wù)有利的transformer backbone結(jié)構(gòu),而我們致力于尋找影響Detection Transformers數(shù)據(jù)效率的主要因素。


          為了從模型轉(zhuǎn)化中獲得insightful的結(jié)果,我們需要選擇合適檢測器展開實(shí)驗(yàn)。綜合一下因素,我們選擇Sparse RCNN和DETR來展開實(shí)驗(yàn):(1)它們分別是RCNN和Detection Transformer中有代表性的檢測器;(2)二者有很多相似的地方,比如相同的優(yōu)化器、標(biāo)簽匹配、損失設(shè)計(jì)、數(shù)據(jù)增強(qiáng)和端到端等,這有利于我們盡可能排除其他影響因素的干擾,專注于核心的區(qū)別;(3)二者在data efficiency上存在顯著差異。模型轉(zhuǎn)化過程如表1所示,接下來,我們挑選模型轉(zhuǎn)化中的關(guān)鍵步驟進(jìn)行介紹:


          去除FPN。由于CNNs具有局部性,F(xiàn)PN中能夠以較小的計(jì)算代價(jià)實(shí)現(xiàn)多尺度特征融合,從而在少量數(shù)據(jù)的情況下提升目標(biāo)檢測的性能。對比之下,DETR中的attention機(jī)制具有全局感受野,導(dǎo)致其在高分辨率的特征圖上需要消耗大量的運(yùn)算資源,因此在DETR上做多尺度特征的建模往往是難以實(shí)現(xiàn)的。在本步中,我們?nèi)コ齊CNN中的FPN,并且與DETR一致,我們僅將backbone中32倍下采樣的特征送入檢測頭做RoI Align和后續(xù)解碼和預(yù)測。和預(yù)期的一樣,去除FPN的多尺度建模作用,在50代的訓(xùn)練周期下模型性能下降顯著by 7.3 AP。


          加入Transformer編碼器。在DETR中,transformer編碼器可以看作是檢測器中的neck,用來對backbone提取的特征做增強(qiáng)。在去除FPN neck后,我們將DETR的編碼器加入模型得到表1中的Net3。有趣的是,Net3在50個(gè)訓(xùn)練周期下的性能下降,而在300個(gè)訓(xùn)練周期下性能有所提升。我們猜想像ViT[11]一樣,****中的attention具有平方復(fù)雜度,因此需要更長的訓(xùn)練周期來收斂并體現(xiàn)其優(yōu)勢。


          將動(dòng)態(tài)卷積替換為自注意力機(jī)制。SparseRCNN中一個(gè)非常有趣的設(shè)計(jì)是****中的動(dòng)態(tài)卷積,它的作用和DETR中的cross-attention作用十分相似,即根據(jù)圖像特征和特定object candidate的相似性,自適應(yīng)地將圖像中的信息聚合到object candidate中。在本步驟中,我們將動(dòng)態(tài)替換為cross-attention,對應(yīng)的結(jié)果如表中Net4所示。反直覺的,參數(shù)量大并不一定會使模型更依賴數(shù)據(jù)。事實(shí)上,含有大量參數(shù)的動(dòng)態(tài)卷積能夠比參數(shù)量很小的cross-attention表現(xiàn)出了更好的數(shù)據(jù)效率。


          去除RoIAlign。SparseRCNN和RCNNs family中的其他檢測器一樣根據(jù)目標(biāo)檢測的候選框?qū)D像中指定區(qū)域的特征做采樣,再基于采樣后的特征做預(yù)測。對比之下,DETR中content query直接從圖像的全局特征中聚合特定物體的信息。在本步驟,我們?nèi)コ齊oI Align操作??梢钥吹?,模型的性能發(fā)生了顯著下降。我們猜想從全局特征中學(xué)習(xí)如何關(guān)注到包含特定物體的局部區(qū)域是non-trivial的,因此模型需要從更多的數(shù)據(jù)和訓(xùn)練周期中學(xué)習(xí)到locality的特性。而在見過的數(shù)據(jù)量小的情況下性能會顯著下降。


          去除初始的proposal。最后,DETR直接預(yù)測normalized檢測框中心坐標(biāo)和寬度和高度,而RCNNs預(yù)測gt檢測框相較于初始proposal檢測框的offsets。在本步驟中,我們消除此差異。這一微小的區(qū)別使得模型性能顯著下降,我們猜想這是因?yàn)槌跏嫉膒roposal能夠作為一種空間位置上的先驗(yàn),幫助模型關(guān)注特定的物體區(qū)域,從而降低了從大量數(shù)據(jù)中學(xué)習(xí)關(guān)注局部區(qū)域的需要。


          總結(jié):綜上,可以看出以下因素對模型的data efficiency其關(guān)鍵作用:(1)從局部區(qū)域的稀疏特征采樣,例如采用RoIAlign;(2)多尺度特征融合,而這依賴于稀疏特征采樣使得其運(yùn)算量變得可接受;(3)相較于初始的空間位置先驗(yàn)作預(yù)測。其中(1)和(3)有利于模型關(guān)注到特定的物體區(qū)域,緩解從大量數(shù)據(jù)中學(xué)習(xí)locality的困難。(2)有利于充分利用和增強(qiáng)圖像的特征,但其也依賴于稀疏特征。


          值得一提的是,在DETR family中,Deformable DETR[4]是一個(gè)特例,它具有較好的數(shù)據(jù)效率。而我們基于Sparse RCNN和DETR的模型轉(zhuǎn)化實(shí)驗(yàn)得到的結(jié)論同樣也能夠說明為什么Deformable DETR的具有較好的數(shù)據(jù)集效率:Multi-scale Deformable Attention從圖像局部區(qū)域內(nèi)做特征的稀疏采樣,并運(yùn)用了多尺度特征,同時(shí)模型的預(yù)測是相對于初始的reference point的。


          03

          我們的方法



          模型增強(qiáng)

          圖片

          圖2:我們的數(shù)據(jù)高效Detection Transformer模型結(jié)構(gòu)。我們力求在盡可能少改動(dòng)原模型的情況下,提升其數(shù)據(jù)效率。模型的backbone、transformer編碼器和第一個(gè)****層均未變化


          局部特征采樣。從模型轉(zhuǎn)化中的分析中可以看出,從局部物體區(qū)域做特征采樣對實(shí)現(xiàn)數(shù)據(jù)效率是至關(guān)重要的。幸運(yùn)的是,在Detection Transformer中,由于Deep Supervision[12]的存在,每一層****層中都為我們提供了物體檢測框的信息。因此,我們可以在不引入新的參數(shù)的情況下,借助這些物體定位框來做局部特征采樣。盡管可以采用更成熟的特征采用方法,我們采用最常用的RoI Align。從第二層****層開始,我們借助前一層****的輸出來做稀疏特征采樣。


          迭代式預(yù)測和初始參考點(diǎn)。此外,Detection Transformer中級聯(lián)的結(jié)構(gòu)很自然地適合使用迭代式的檢測框refinement來提升檢測的性能。我們在模型轉(zhuǎn)換中的實(shí)驗(yàn)也表明,迭代式的預(yù)測以及相對于初始的空間參考做預(yù)測有利于實(shí)現(xiàn)更準(zhǔn)確的目標(biāo)檢測。為此,我們引入檢測框的迭代式refinement和初始參考點(diǎn)。


          多尺度特征融合。多尺度特征的運(yùn)用有利于特征的高效利用,能夠在數(shù)據(jù)量小的情況下提升檢測性能。而我們的稀疏特征采樣也使得在Detection Transformer中使用多尺度特征成為可能。盡管更成熟的多尺度融合技術(shù)可能被使用,我們僅僅利用bbox作為指導(dǎo),對不同尺度的特征做RoIAlign,并將得到的序列concatenate在一起。


          標(biāo)簽增強(qiáng)

          圖片

          圖3:(a)現(xiàn)有Detection Transformer的標(biāo)簽分配方式;(b)使用標(biāo)簽增強(qiáng)后的標(biāo)簽分配。圓圈和矩形框分別表示模型的預(yù)測和圖片上的物體標(biāo)注。通過復(fù)制橙色方框表示的物體標(biāo)注,藍(lán)色圓圈表示的模型預(yù)測也在標(biāo)簽分配中匹配到了正樣本,因此得到了更豐富的監(jiān)督信號。


          盡管一對一的標(biāo)簽匹配形式簡單,并能夠避免去重過程,但也使得在每次迭代中,只有少量的檢測候選能夠得到有效的監(jiān)督。模型不得不從更大量的數(shù)據(jù)或者更多的訓(xùn)練周期中獲得足夠的監(jiān)督信號。為了解決這一問題,我們提出一種標(biāo)簽增強(qiáng)策略,通過在二分圖匹配過程中重復(fù)正樣本,來為Detection Transformer提供更豐富的監(jiān)督信號,如圖3所示。


          在實(shí)現(xiàn)過程中,我們考慮兩種不同的方式來復(fù)制正樣本的標(biāo)簽,即(1)固定重復(fù)次數(shù)(Fixed Repeat Time):我們對所有正樣本標(biāo)簽重復(fù)相同的次數(shù);(2)固定正負(fù)樣本標(biāo)簽的比例(Fixed positive-negative ratio):我們對正樣本的標(biāo)簽進(jìn)行重復(fù)采樣,最終保證標(biāo)簽集合中正樣本的比例固定。默認(rèn)的,我們采用固定重復(fù)兩次的標(biāo)簽增強(qiáng)方式。


          04

          實(shí)驗(yàn)



          圖片

          表2:不同方法在小數(shù)據(jù)集Cityscapes上的性能比較


          在本部分,我們首先將我們的方法和現(xiàn)有的Detection Transformer進(jìn)行比較。如表2所示,大部分Detection Transformer面臨數(shù)據(jù)效率低下的問題。而我們的DE-CondDETR在對CondDETR模型做微小改動(dòng)的情況下能夠取得和Deformable DETR相當(dāng)?shù)臄?shù)據(jù)效率。而輔助以標(biāo)簽增強(qiáng)提供的更豐富的監(jiān)督,我們的DELA-CondDETR能夠取得比Deformable DETR更佳的性能。同樣的,我們的方法也能夠與其他Detection Transformer結(jié)合來顯著提升其data efficiency,例如我們的DE-DETR和DElA-DETR能夠在以僅僅50周期取得比DETR 500個(gè)周期要顯著優(yōu)越的性能。


          圖片

          圖4:不同方法在下采樣的COCO數(shù)據(jù)集上的性能比較。橫軸表示數(shù)據(jù)下采樣的比例(對數(shù)scale)。


          此外我們對COCO 2017中的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練圖像0.1,0.05,0.02和0.01倍的采樣,來觀察模型在不同數(shù)據(jù)量下的性能。如圖4所示,在不同的訓(xùn)練數(shù)據(jù)量下,我們的方法始終能夠取得顯著優(yōu)于基線方法的性能。特別的,僅用0.01倍的數(shù)據(jù)DELA-DETR的性能顯著優(yōu)于使用五倍數(shù)據(jù)的DETR基線。類似的,DELA-CondDETR性能始終優(yōu)于用兩倍數(shù)據(jù)訓(xùn)練的CondDETR基線。


          圖片

          表3:對模型中不同組件的消融實(shí)驗(yàn)


          我們首先消融我們方法中各個(gè)模塊的作用,如表3所示。使用局部特征采樣和多尺度特征均能夠顯著提升模型的性能,分別帶來8.3 AP和6.4 AP的提升。此外,使用標(biāo)簽增強(qiáng)能夠進(jìn)一步帶來2.7 AP的性能提升。并且單獨(dú)使用標(biāo)簽增強(qiáng)也能夠帶來2.6的性能提升。


          圖片

          對標(biāo)簽增強(qiáng)的消融研究


          如方法部分中討論的,我們考慮了兩種標(biāo)簽增強(qiáng)策略。包括固定重復(fù)次數(shù)和固定正負(fù)樣本比例。在本部分,我們對這兩種策略進(jìn)行消融。如上表中左表所示,使用不同的固定重復(fù)倍數(shù)均能夠提升DE-DETR的性能,但隨重復(fù)次數(shù)增加,性能提升呈下降趨勢。我們默認(rèn)采用重復(fù)正樣本標(biāo)簽2次。此外,如右表所示,盡管使用不同正負(fù)樣本比例均能帶來性能提升,在正負(fù)樣本比例為1:3時(shí),其取得的性能最佳,有趣的是,這也是RCNN系列檢測器如Faster RCNN中最常用正負(fù)樣本采樣比例。


          圖片

          在訓(xùn)練數(shù)據(jù)充足的COCO 2017上的性能比較,所有模型都訓(xùn)練50個(gè)周期


          盡管以上實(shí)驗(yàn)說明了我們的方法能夠在數(shù)據(jù)量有限的情況下顯著提升模型性能,它并不能表明我們的方法在數(shù)據(jù)量充足時(shí)依然有效。為此,我們在數(shù)據(jù)量充足的COCO2017上測試我們方法的性能。有趣的是,我們的方法不僅不會降低模型在COCO 2017上的性能,還能帶來不小的提升。具體來說,DELA-DETR和DELA-CondDETR分別相較于它們的baseline提升8.1AP和2.8AP。


          圖片

          圖5:不同模型在Cityscapes數(shù)據(jù)集上的收斂曲線,橫軸表示訓(xùn)練周期數(shù),縱軸表示mAP


          最后,為了對本文方法帶來的性能提升有一個(gè)直觀的感受,我們提供了不同DETR變種在Cityscapes數(shù)據(jù)集上的收斂曲線,如圖5所示。可以看出,我們的方法能夠以更少的訓(xùn)練代價(jià)取得更加優(yōu)越的性能,展示了其優(yōu)越的數(shù)據(jù)效率。更多實(shí)驗(yàn)結(jié)果請參考原文及其附加材料。


          05

          總結(jié)



          在本文中,我們指出了Detection Transformer數(shù)據(jù)效率低下的問題,并通過逐步的模型轉(zhuǎn)化找了影響數(shù)據(jù)效率的關(guān)鍵因素。隨后,我們以盡可能小的模型改動(dòng)來大幅提升現(xiàn)有Detection Transformer的數(shù)據(jù)效率,并提出一種標(biāo)簽增強(qiáng)策略進(jìn)一步提升其性能。隨著Transformer在視覺任務(wù)中越發(fā)流行,我們希望我們的工作能夠激發(fā)社區(qū)探究和提升Transformer在不同任務(wù)上的數(shù)據(jù)效率。


          【論文鏈接】

          arxiv.org/abs/2203.09507

          【代碼鏈接】

          https://github.com/encounter1997/DE-DETRs

          https://github.com/encounter1997/DE-CondDETR



          參考文獻(xiàn)


          End-to-end Object Detection with Transformers

          Microsoft COCO: Common Objects in Context

          Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

          Deformable DETR: Deformable Transformers for End-to-End Object Detection

          Conditional DETR for Fast Training Convergence

          PnP-DETR: Towards Efficient Visual Analysis with Transformers


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉