高效目標(biāo)檢測:動態(tài)候選較大程度提升檢測精度(附論文下載)
01
概述
大多數(shù)最先進(jìn)的檢測方法利用固定數(shù)量的提議作為候選對象的中間表示,這在推理過程中無法適應(yīng)不同的計算約束。
在今天分享中,研究者提出了一種簡單而有效的方法,該方法通過生成用于目標(biāo)檢測的動態(tài)提議來適應(yīng)不同的計算資源。首先設(shè)計一個模塊來制作一個基于查詢的模型,以便能夠用不同數(shù)量的提議進(jìn)行推理。此外,研究者將其擴(kuò)展到動態(tài)模型以根據(jù)輸入圖像選擇候選的數(shù)量,大大降低了計算成本。新提出的方法在包括兩階段和基于查詢的模型在內(nèi)的各種檢測模型中實現(xiàn)了顯著的加速,同時獲得了相似甚至更好的準(zhǔn)確度。
02
背景
目標(biāo)檢測是一項基本但具有挑戰(zhàn)性的計算機(jī)視覺任務(wù)。給定輸入圖像,算法旨在同時對圖像中的目標(biāo)進(jìn)行定位和分類。為了實現(xiàn)良好的目標(biāo)檢測性能,兩階段方法首先生成固定數(shù)量的粗略提議,然后對其進(jìn)行細(xì)化以輸出細(xì)粒度預(yù)測。作為成功的雙階段方法之一,R-CNN系列利用區(qū)域候選網(wǎng)絡(luò)(RPN)粗略定位目標(biāo),然后提取感興趣區(qū)域特征以輸出精細(xì)預(yù)測。為了簡化目標(biāo)檢測的過程,提出了基于查詢的方法來移除手動設(shè)計的Anchor框。
其中,DETR是一項開創(chuàng)性的工作,將目標(biāo)檢測視為具有多階段變換器和學(xué)習(xí)對象查詢的直接集合預(yù)測問題。Sparse R-CNN設(shè)計了一個基于R-CNN檢測器的基于查詢的集合預(yù)測框架。通過用固定數(shù)量的可學(xué)習(xí)候選替換手工制作的候選,Sparse R-CNN有效地減少了候選的數(shù)量并避免了多對一的標(biāo)簽分配。
在今天分享中,研究者制定了一種訓(xùn)練策略,以促進(jìn)單個模型根據(jù)硬件約束自適應(yīng)地切換候選的數(shù)量。實證研究表明,新提出的模型在相同數(shù)量的候選下實現(xiàn)了與單獨(dú)訓(xùn)練的模型相似的性能。此外,研究者還設(shè)計了一個網(wǎng)絡(luò)模塊,根據(jù)輸入圖像的復(fù)雜度動態(tài)選擇proposals的數(shù)量,有效降低了計算成本。
如上圖,與提出的動態(tài)候選相結(jié)合,四種所示檢測方法的推理速度大幅提高,同時保持了競爭性能。 推理速度是使用單個TITAN RTX GPU測量的。
03
新框架
研究者提出的方法的關(guān)鍵思想是用當(dāng)前目標(biāo)檢測方法中的動態(tài)大小替換固定數(shù)量的候選。新提出的模型不是使用固定候選,而是根據(jù)輸入圖像的內(nèi)容或當(dāng)前的計算資源選擇不同數(shù)量的候選,如下圖所示。
新提出的方法可以很容易地插入大多數(shù)兩階段和基于查詢的檢測方法。在接下來的部分中,首先回顧了當(dāng)前帶有候選的目標(biāo)檢測方法,并介紹了一種帶有可切換候選的訓(xùn)練策略,以使新提出的模型在推理過程中適應(yīng)不同的配置。然后,將可切換候選擴(kuò)展到動態(tài)候選,以便可以根據(jù)輸入圖像自適應(yīng)地調(diào)整候選編號。最后,引入了一種就地蒸餾策略,在每次訓(xùn)練迭代中將模型中的知識從具有更多候選的網(wǎng)絡(luò)轉(zhuǎn)移到具有較少候選的網(wǎng)絡(luò),這顯著提高了新模型的整體性能。
Dynamic Proposa
可切換候選有助于在不同數(shù)量的候選下執(zhí)行兩階段或基于查詢的檢測模型。在這種情況下,建議的數(shù)量是根據(jù)外部資源而不是圖像的內(nèi)容來選擇的。為了將proposal的數(shù)量和計算成本與圖像的內(nèi)容聯(lián)系起來,研究者使用圖像中的物體數(shù)量作為指導(dǎo)來生成proposa的動態(tài)數(shù)量。
在訓(xùn)練過程中,估計圖像中的物體數(shù)量,記為n~。然后用定義的確定性函數(shù) δ(~n) 替換原始變量δ:
因此δ隨著預(yù)測目標(biāo)數(shù)量的上限為1線性增長。給定新的動態(tài)候選數(shù)Nd:
在基于查詢的模型中,動態(tài)候選特征qd0和框bd0是從原始q0和b0中切片的:
在兩階段模型中,目標(biāo)候選是從原始候選中采樣通過RPN使用下面定義的比率生成的的:
04
實驗
在MS COCO驗證集上單獨(dú)使用多種配置訓(xùn)練的原始方法與使用可切換候選聯(lián)合訓(xùn)練的原始方法之間的比較。
Cityscapes val上目標(biāo)檢測和實例分割的基線模型進(jìn)行比較?!癉P”表示結(jié)合動態(tài)候選的模型。如下表:
具有動態(tài)候選的目標(biāo)檢測及其相應(yīng)的估計目標(biāo)數(shù)量和候選數(shù)量。第一列顯示來自MS-COCO的圖像,第二列顯示來自Cityscapes的圖像。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。