ECCV2022 | FPN錯(cuò)位對(duì)齊,實(shí)現(xiàn)高效半監(jiān)督目標(biāo)檢測 (PseCo)
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/544346080編輯丨極市平臺(tái)
本文首先討論了把pseudo labeling和consistency training直接遷移到目標(biāo)檢測中的不適配現(xiàn)象,然后再解釋如何通過FPN的錯(cuò)位訓(xùn)練實(shí)現(xiàn)高效半監(jiān)督目標(biāo)檢測,并取得SOTA的表現(xiàn)。
論文鏈接:https://arxiv.org/abs/2203.16317代碼鏈接:https://github.com/ligang-cs/PseCo
Preliminary半監(jiān)督目標(biāo)檢測是研究,在有一部分標(biāo)注數(shù)據(jù)的前提下,如何利用大量的無標(biāo)注數(shù)據(jù)來提升檢測器性能。廣泛采用的pipeline是Mean-Teacher,即,通過EMA來實(shí)時(shí)生成teacher model,然后,讓teacher model生成偽標(biāo)簽,用于監(jiān)督student model的訓(xùn)練。但是,Mean-Teacher的范式,很容易出現(xiàn)over-confidence的問題,student model很容易過擬合teacher model的預(yù)測。為了緩解over-confidende,F(xiàn)ixMatch提出了對(duì)teacher和student分別使用不同強(qiáng)度的數(shù)據(jù)增廣,具體地,對(duì)teacher的輸入采用弱數(shù)據(jù)增廣(flip, scale jitter等),保證偽標(biāo)簽的質(zhì)量;而對(duì)student的輸入,采用強(qiáng)數(shù)據(jù)增廣(rotate, color jitter,一些幾何形變等),增加student的訓(xùn)練難度,防止過擬合。
1. MotivationPseudo labeling和consistency training是半監(jiān)督學(xué)習(xí)里面的兩個(gè)關(guān)鍵技術(shù),但是直接遷移到目標(biāo)檢測上,會(huì)出現(xiàn)一些不適配的現(xiàn)象。我們?cè)敿?xì)分析了一下,具體的不適配有哪些:
1.1 Pseudo Labelingpseudo labeling通過設(shè)置一個(gè)較高的score threshold,把Teacher model預(yù)測的置信度較高的檢測結(jié)果保留下來,作為偽標(biāo)簽(pseudo boxes)。但是在目標(biāo)檢測中,分類score和box的定位質(zhì)量往往沒有強(qiáng)相關(guān),score較高的pseudo box可能定位并不準(zhǔn)。所以,Pseudo box中難免存在一些定位不準(zhǔn)的box框。那么,定位不準(zhǔn)的pseudo box會(huì)給半監(jiān)督訓(xùn)練帶來哪些影響呢?1. 會(huì)影響IoU-based label assignment;如下圖1,質(zhì)量很差的proposal會(huì)被錯(cuò)誤地assign成正樣本,模糊正負(fù)樣本的分類邊界。2. 不準(zhǔn)確的Pseudo Box不適合用來訓(xùn)練bbox回歸的任務(wù)。為了緩解這兩個(gè)影響,我們分別設(shè)計(jì)了Prediction-guided Label Assignment (預(yù)測引導(dǎo)的標(biāo)簽分配, PLA)和Positive-proposal Consistency Voting (正樣本一致性投****,PCV),來實(shí)現(xiàn)比較魯棒的帶噪偽標(biāo)簽學(xué)習(xí)。其中,PLA根據(jù)Teacher prediction來分配正負(fù)樣本,減少了對(duì)IoU的依賴;PCV根據(jù)proposal的預(yù)測一致性,來反映pseudo box的定位質(zhì)量,抑制定位不準(zhǔn)的pseudo box。圖1 coarse pseudo box (黃色框)會(huì)誤導(dǎo)label assignment
1.2 Consistency Trainingconsistency training通過在student訓(xùn)練過程中,加入一些擾動(dòng),讓模型的預(yù)測結(jié)果對(duì)擾動(dòng)保持 魯棒,從而學(xué)到一些重要的不變性。尺度不變性(scale invariance)作為目標(biāo)檢測最重要的幾個(gè)屬 性之一,一直收到廣泛的關(guān)注。但是以前的工作,僅僅采用random resize來學(xué)習(xí)尺度不變性,對(duì) 輸入圖像做比例為 的縮放,同時(shí)也會(huì)對(duì)ground truth做相應(yīng)比例 的縮放,我們把這種一致性 叫作label-level consistency.除了這種label-level的尺度不變性外,其實(shí)目標(biāo)檢測網(wǎng)絡(luò)還有 feature層面的尺度不變性。通俗的說就是,對(duì)于同一張image,我們把它放縮到兩種不同的scale (比如 scale , scale ),如果能讓它們的feature擁有一樣的shape,即 Feat scale 的tensor維 督。得益于FPN的金字塔結(jié)構(gòu),feature層面的對(duì)齊很容易實(shí)現(xiàn)。我們提出了一種Multi-view Scale-invariant Learning (多視角尺度不變性學(xué)習(xí),MSL),同時(shí)從label- and feature-level consistency的角度,學(xué)習(xí)尺度不變性,實(shí)現(xiàn)了高效的半監(jiān)督學(xué)習(xí)。
2. Method圖2 PseCo的frameworkPseCo的framework如圖2所示。在unlabeled data上,我們對(duì)輸入圖像分別做不同的scale jitter,構(gòu)建出view 0和view 1,其中,view 0是teacher model的輸入,而view 1是student model的輸入,通過view 0 - view 1 pair的學(xué)習(xí),label-level consistency被實(shí)現(xiàn),這也就是之前大家常用的random resize. 接著,我們對(duì)view 1做2倍下采樣,得到view 2。由于FPN的特征金字塔,view 1的P3-P7 features和view 2的P2-P6 features,可以實(shí)現(xiàn)完美的對(duì)齊。我們用相同的Pseudo Boxes來監(jiān)督view 1的P3-P7層和view 2的P2-P6層。這個(gè)可以理解成FPN的錯(cuò)位訓(xùn)練。至此,我們?cè)谝粋€(gè)網(wǎng)絡(luò)中,通過label-level and feature-level consistency,實(shí)現(xiàn)了更加全面的尺度不變性學(xué)習(xí)。關(guān)于兩種consistency的比較,可參考圖3.圖3 label-level和feature-level consistency比較。feature level的對(duì)齊,可以通過移動(dòng)FPN pyramid level來實(shí)現(xiàn)對(duì)于Pseudo labeling的改進(jìn),我們提出了PLA和PCV,分別從分類任務(wù)和回歸任務(wù)的角度,來實(shí)現(xiàn)魯棒帶噪標(biāo)簽學(xué)習(xí)。PLA (prediction-guided label assignment)提出了一種label assignment的方式,比傳統(tǒng)的IoU-based策略,更適合應(yīng)對(duì)帶噪的標(biāo)簽。PLA對(duì)每個(gè)GT,先構(gòu)造了一個(gè)更大的candidate bag,包含了所有的、有潛力成為正樣本的proposals (or candidates),然后根據(jù)teacher model在這些candidates上的預(yù)測結(jié)果,來評(píng)判每個(gè)candidate的質(zhì)量,最后選取質(zhì)量最高的top-N個(gè)candidates作為正樣本。PLA減少了label assignment對(duì)IoU的依賴,避免了不準(zhǔn)確的pseudo box對(duì)label assignment的消極影響。此外,PCV(positve-proposal consistency voting) 直接對(duì)Pseudo Box的定位精度做出了判斷,定位準(zhǔn)確的Pseudo Box會(huì)被分配比較大的regression loss weight,反之,就分配小的reg loss weight. 細(xì)節(jié)上,因?yàn)樵谀繕?biāo)檢測中,1個(gè)GT往往會(huì)匹配多個(gè)positive proposals,我們發(fā)現(xiàn)這些positive proposals的回歸一致性能夠反映出對(duì)應(yīng)的pseudo box的定位精度,更多細(xì)節(jié)請(qǐng)參考論文。
3. Experiments我們?cè)趐artial labeled和full labeled settings下,都取得了SOTA的性能。此外,我們的訓(xùn)練效率也非常高,如圖4所示,在5%和10%標(biāo)簽比例下,我們都僅用了不到一半的訓(xùn)練時(shí)長,就達(dá)到了Soft Teacher的精度。雖然我們?cè)黾恿艘粋€(gè)view 2,但是因?yàn)関iew 2的圖片分辨率非常小,增加的訓(xùn)練開銷很小,每個(gè)iteration增加的的訓(xùn)練時(shí)長不到20%.圖4 PseCo收斂速度
4. 碎碎念(1) unlabeled data上的strong augmentation,一方面可以使得模型學(xué)習(xí)到一些重要的不變性,另一方面,可以增加訓(xùn)練難度,有效緩解over-confidence。如果不加強(qiáng)aug的話,訓(xùn)練后期會(huì)出現(xiàn)一個(gè)現(xiàn)象:擬合pseudo label會(huì)擬合得越來越好,但是mAP就是不漲。本文提出的MSL,或者叫FPN錯(cuò)位訓(xùn)練,其實(shí)也是提供了一種強(qiáng)aug,讓student model同時(shí)處理兩種訓(xùn)練模式,不容易過擬合:一種是高分辨率輸入,P3-P7訓(xùn)練;另一種是低分辨率輸入,P2-P6訓(xùn)練。其實(shí),MAE的masked image也可以看做強(qiáng)aug,似乎可以融入到半監(jiān)督中。(2) 在實(shí)際使用中,unlabeled data更可能是out-of-distribution的,和labeled data不在同一個(gè)domain。如何從ood的unlabeled data中高效學(xué)習(xí)出有用的信息,是比較難的。比如,如果做人臉檢測,labele data用WiderFace,unlabeled data用MS COCO,可能這個(gè)設(shè)定下的半監(jiān)督學(xué)習(xí)就是無效的。甚至,會(huì)因?yàn)榫W(wǎng)絡(luò)更多地?cái)M合unlabeled data的domain,導(dǎo)致掉點(diǎn)。(3) 現(xiàn)在Teacher model僅僅提供pseudo box給student model訓(xùn)練,這種pseudo box是比較稀疏的監(jiān)督信息。在此基礎(chǔ)上,我們提出了Dense Teacher Guidance (https://arxiv.org/abs/2207.05536),研究如何從Teacher prediction中挖掘出更多的監(jiān)督信息。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。