色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > ResNet50上天 | DDQ改進(jìn)Sparse RCNN讓ResNet50在coco上來(lái)到了49.8的AP

          ResNet50上天 | DDQ改進(jìn)Sparse RCNN讓ResNet50在coco上來(lái)到了49.8的AP

          發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2022-08-14 來(lái)源:工程師 發(fā)布文章
          作者丨ChaucerG來(lái)源丨集智書童

          圖片計(jì)算機(jī)視覺(jué)工坊推薦搜索關(guān)鍵詞列表:論文解讀Transformer項(xiàng)目實(shí)踐深度學(xué)習(xí)

          在 DETR 出現(xiàn)之后,端到端的目標(biāo)檢測(cè)得到了迅速的發(fā)展。DETR 使用一組稀疏查詢來(lái)替換大多數(shù)傳統(tǒng)檢測(cè)器中的密集候選框。相比之下,稀疏查詢不能保證作為密集先驗(yàn)的高召回率。但是,在當(dāng)前框架中,使查詢變得密集并非易事。它不僅計(jì)算成本高,而且優(yōu)化困難。由于稀疏查詢和密集查詢都不完美,那么端到端目標(biāo)檢測(cè)中的預(yù)期查詢是什么?

          本文表明預(yù)期的查詢應(yīng)該是密集的不同查詢(DDQ)。具體來(lái)說(shuō),將密集先驗(yàn)引入框架以生成密集查詢。對(duì)這些查詢應(yīng)用重復(fù)查詢刪除預(yù)處理,以便它們彼此區(qū)分開(kāi)來(lái)。然后迭代處理密集的不同查詢以獲得最終的稀疏輸出。

          實(shí)驗(yàn)展示了 DDQ 更強(qiáng)大、更健壯且收斂更快。它在 MS COCO 檢測(cè)數(shù)據(jù)集上僅用 12 個(gè) epoch 就獲得了 44.5 AP;在各種數(shù)據(jù)集上的目標(biāo)檢測(cè)和實(shí)例分割任務(wù)上都優(yōu)于以前的方法。DDQ 融合了傳統(tǒng)密集先驗(yàn)和最近的端到端檢測(cè)器的優(yōu)勢(shì)。作者希望它可以將 DDQ 作為一個(gè)新的Baseline,并激發(fā)研究人員重新審視傳統(tǒng)方法和端到端檢測(cè)器之間的互補(bǔ)性。

          1簡(jiǎn)介

          目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中最基本的挑戰(zhàn)之一,旨在用單個(gè)邊界框定位每個(gè)目標(biāo)。它帶來(lái)了一個(gè)具有挑戰(zhàn)性的問(wèn)題,即準(zhǔn)確的目標(biāo)檢測(cè)器既要檢測(cè)所有目標(biāo)又要避免預(yù)測(cè)重復(fù)的框。

          為了解決這個(gè)問(wèn)題,以前最先進(jìn)的方法大多遵循標(biāo)準(zhǔn)范式,如圖 1(a)所示,首先生成密集的候選框,然后將一個(gè) GT 分配給許多候選框以實(shí)現(xiàn)高目標(biāo)召回;然而,一對(duì)多的分配會(huì)導(dǎo)致冗余預(yù)測(cè)。由于在目標(biāo)檢測(cè)中每個(gè)目標(biāo)應(yīng)該只有一個(gè)預(yù)測(cè),因此采用輔助后處理,例如非極大值抑制(NMS)來(lái)去除重復(fù)的預(yù)測(cè)。盡管多年來(lái)一直主導(dǎo)目標(biāo)檢測(cè),但該 Pipeline 在不損害正確預(yù)測(cè)的情況下完美過(guò)濾掉了重復(fù)框。

          圖片圖 1

          但是這種范式被端到端目標(biāo)檢測(cè)框架 DETR 所打破。與傳統(tǒng)范式相比,它丟棄了密集的目標(biāo)候選框,但直接初始化一組稀疏目標(biāo)查詢。在訓(xùn)練時(shí),這些查詢由一對(duì)一匹配損失監(jiān)督,以便優(yōu)化目標(biāo)與目標(biāo)檢測(cè)的定義一致,即為圖像中的每個(gè)目標(biāo)只預(yù)測(cè)一個(gè)邊界框。在這種情況下,網(wǎng)絡(luò)不再需要后處理來(lái)刪除重復(fù)的預(yù)測(cè)。然而,DETR 的收斂速度很慢,這在各種工作中都有所探索。遵循這一范式的一項(xiàng)代表性工作是Sparse R-CNN。Sparse R-CNN 將每個(gè)查詢與 RoIAlign 提取的局部區(qū)域特征進(jìn)行交互,與 DETR 相比,收斂速度更快。

          重新審視圖1(b)所示的端到端目標(biāo)檢測(cè)器框架,只有數(shù)百個(gè)由一對(duì)一匹配損失監(jiān)督的稀疏查詢。在本文中揭示了這種設(shè)計(jì)會(huì)引發(fā)兩難境地。一方面,數(shù)百個(gè)稀疏查詢并不足以保證高召回率。另一方面,當(dāng)通過(guò)直接增加查詢數(shù)量來(lái)達(dá)到更高的召回率來(lái)引入密集查詢時(shí),不可避免地會(huì)帶來(lái)很多相似的查詢(圖1(c))。這些相似的查詢混淆了網(wǎng)絡(luò),因?yàn)椴煌臉?biāo)簽被分配給相似的查詢。這種選擇稀疏或密集查詢的困境啟發(fā)思考端到端目標(biāo)檢測(cè)中的期望查詢是什么?

          本文回答了定量研究的問(wèn)題,最后觀察到端到端目標(biāo)檢測(cè)中的預(yù)期查詢應(yīng)該是密集的不同查詢(DDQ),這意味著查詢應(yīng)該密集分布以檢測(cè)所有目標(biāo), 以及彼此不同,以促進(jìn)一對(duì)一匹配損失的優(yōu)化。

          圖片

          具體來(lái)說(shuō),如圖 2 所示,增加了 Sparse R-CNN 中的查詢數(shù)量。開(kāi)始時(shí)性能會(huì)提高,但隨著查詢?cè)矫芗?,最終會(huì)趨于平穩(wěn)甚至下降,因?yàn)殡S著查詢?cè)较嗨疲?xùn)練變得更加困難。通過(guò)在迭代細(xì)化的每個(gè)階段之前進(jìn)行重復(fù)刪除預(yù)處理以過(guò)濾掉相似的查詢并獲得不同的查詢,性能得到了明顯的提高。更令人驚訝的是,性能裕度隨著查詢的增加而不斷增加。

          受具有密集不同查詢的 Sparse R-CNN 性能的啟發(fā),在大約 7000 個(gè)查詢中沒(méi)有達(dá)到穩(wěn)定水平,作者建議在圖像的每個(gè)位置上引入密集分布的查詢,然后可以將其轉(zhuǎn)換為密集的不同查詢。這些密集分布的查詢保證了足夠高的召回率來(lái)覆蓋所有潛在的目標(biāo)對(duì)象。

          然而,通過(guò) Sparse R-CNN 的迭代細(xì)化直接處理密集分布的查詢會(huì)導(dǎo)致無(wú)法承受的計(jì)算和 GPU 內(nèi)存成本。

          如圖 2 所示,當(dāng)有大約 7000 個(gè)查詢時(shí),Sparse R-CNN 需要大約 45G 的 GPU 內(nèi)存,而圖像特征圖上可能有超過(guò)數(shù)萬(wàn)個(gè)像素。

          因此,基于 Sparse-RCNN,本文提出了一個(gè)新的框架,Dense Distinct Queries(DDQ),為端到端的目標(biāo)檢測(cè)引入密集的不同查詢,并克服了高計(jì)算成本。具體來(lái)說(shuō),DDQ 將每個(gè)特征圖上的特征點(diǎn)作為密集分布的初始查詢。代替繁重的 RoI refinement heads,輕量級(jí)的全卷積網(wǎng)絡(luò)被應(yīng)用于以滑動(dòng)窗口方式處理所有查詢,它與 Faster R-CNN 具有相似的架構(gòu)。不同的是,DDQ 丟棄了 Anchor 設(shè)計(jì),并應(yīng)用二分匹配算法來(lái)自適應(yīng)地確定正樣本和負(fù)樣本,從而在不同數(shù)據(jù)集上實(shí)現(xiàn)更高的召回率和魯棒性。結(jié)果,密集查詢被有效區(qū)分以生成具有合理計(jì)算成本的密集不同查詢。此外,查詢獨(dú)特性增強(qiáng)機(jī)制進(jìn)一步將這些密集的獨(dú)特查詢與其相應(yīng)的 RoI 特征融合以增強(qiáng)其獨(dú)特性。與需要 6 個(gè)迭代查詢細(xì)化階段的 Sparse R-CNN 不同,DDQ 只需 2 個(gè)細(xì)化階段即可實(shí)現(xiàn)快速收斂和更高的性能。

          實(shí)驗(yàn)結(jié)果評(píng)估了所提出方法的有效性和效率。DDQ 在多個(gè)目標(biāo)檢測(cè)數(shù)據(jù)集上都實(shí)現(xiàn)了超越SOTA的性能。例如,DDQ 使用 ResNet-50 在 MS-COCO 上進(jìn)行正常 1x 訓(xùn)練就實(shí)現(xiàn)了 44.5 AP,這在很大程度上超過(guò)了當(dāng)前最先進(jìn)的檢測(cè)器(包括基于 CNN 和基于 Transformer 的檢測(cè)器)超出 2AP ,僅以極少的推理時(shí)間為代價(jià)。它還在 CrowdHuman 上以 93.2 AP 和 98.2 召回率。例如分割,DDQ 在 MS COCO 上的性能也顯著優(yōu)于 Cascade Mask R-CNN 3  和 LVIS v1.0 上的 3.7 。

          2Dense Distinct Queries (DDQ)

          DDQ 是基于最近的端到端檢測(cè)器設(shè)計(jì)具有快速收斂性的目標(biāo)檢測(cè)器的原理。因此,它能夠推廣到不同的架構(gòu)。Pipeline 如圖 3 所示。

          圖片圖 32.1 致敬 Sparse R-CNN

          Sparse R-CNN 主要遵循 DETR 的范式,由于其在解碼過(guò)程中的顯著改進(jìn),即使沒(méi)有編碼層也能獲得更好的性能。Sparse R-CNN 利用動(dòng)態(tài)實(shí)例交互來(lái)代替原來(lái)的交叉注意力解碼部分。此外,Sparse R-CNN 中的每個(gè)目標(biāo)查詢只關(guān)注由 RoIAlign 算子提取的局部區(qū)域的特征,而不是像 DETR 中那樣關(guān)注所有編碼特征。

          Sparse R-CNN 維護(hù) N(N ~300) 個(gè)獨(dú)立查詢,每個(gè)查詢對(duì)應(yīng)一個(gè)邊界框。然后它使用邊界框通過(guò) RoIAlign 算子從特征金字塔中提取候選區(qū)域特征。然后使用每個(gè)查詢嵌入來(lái)生成與 RoI 特征交互的卷積參數(shù),以輸出每個(gè)階段的預(yù)測(cè)標(biāo)簽和邊界框。

          Sparse R-CNN 還應(yīng)用集合預(yù)測(cè)損失,根據(jù)預(yù)定義的匹配成本利用二分匹配,為每個(gè)基本事實(shí)分配一個(gè)正查詢。如上所述,稀疏查詢集和重復(fù)查詢是 Sparse R-CNN 的性能和收斂性的2個(gè)瓶頸。

          2.2 Dense Queries

          在前面描述了密集查詢?cè)诤艽蟪潭壬咸岣吡苏倩芈?,同時(shí)也帶來(lái)了不可接受的計(jì)算成本。在這項(xiàng)研究中,采用輕量級(jí)全卷積網(wǎng)絡(luò)(RPN)以滑動(dòng)窗口方式處理所有查詢,由于 CNN 結(jié)構(gòu)的參數(shù)共享特性,召回率大大提高,內(nèi)存消耗大大減少。作為傳統(tǒng)的 RPN 用于例如 Faster R-CNN 在召回率方面仍然滯后,并且由于其繁瑣的Anchor設(shè)計(jì)和分配策略而存在泛化問(wèn)題,作者提出了一種新的 RPN 結(jié)構(gòu),以使其更加高效和魯棒。

          圖片圖3(b) RPN 結(jié)構(gòu)

          改進(jìn)后的 RPN 結(jié)構(gòu)如圖3(b)所示。類似于 RetinaNet 等單階段目標(biāo)檢測(cè)器,本研究中的 RPN 結(jié)構(gòu)采用 P3 到 P7 特征,其中  表示從輸入圖像大小下采樣  倍的特征圖。它避免了在 Faster R-CNN 中使用 RPN 結(jié)構(gòu)中的 P2 特征,以節(jié)省計(jì)算成本。

          它有 3 個(gè)連續(xù)的 3×3 Conv-GN-ReLU 層作為共享Head結(jié)構(gòu),然后是一個(gè) 3×3 Conv-GN-ReLU 層的2個(gè)獨(dú)立分支,用于分類和回歸子任務(wù)。然后提取來(lái)自2個(gè)子網(wǎng)絡(luò)的特征并將其連接以形成密集查詢,從而將每個(gè)特征點(diǎn)視為一個(gè)查詢。這樣一來(lái),查詢的數(shù)量就變得更大了。例如,給定大小為 800 × 800 的圖像,查詢數(shù)達(dá)到 13343,這比 Sparse R-CNN 中的查詢數(shù)大2個(gè)數(shù)量級(jí),內(nèi)存消耗僅略有增加。

          改進(jìn)后的 RPN 還丟棄了原始 RPN 中的 Anchor 設(shè)計(jì)和基于 IoU 的分配,并應(yīng)用二分匹配算法來(lái)自適應(yīng)地區(qū)分正負(fù)樣本,以提高跨不同數(shù)據(jù)集的魯棒性。值得注意的是,為了穩(wěn)定訓(xùn)練,對(duì)二分匹配進(jìn)行了輕微修改,僅從GT的中心特征點(diǎn)中選擇正樣本。具體而言,將每個(gè)level上最接近GT中心的top-K(本研究中的K=9)特征點(diǎn)視為潛在的正樣本,如圖3(b)所示。

          2.3 Distinct Queries

          首先要指出的是,在 Sparse R-CNN 等端到端訓(xùn)練方法中,非重復(fù)查詢對(duì)于二分匹配的收斂非常重要。隨著查詢變得相似,訓(xùn)練更難以收斂。在存在2個(gè)相同查詢的極端情況下,這是可以理解的。在這種情況下,二分匹配將前景標(biāo)簽分配給其中一個(gè),而將背景標(biāo)簽分配給另一個(gè)。

          不失一般性,采用二元交叉熵?fù)p失進(jìn)行分類。因此,這2個(gè)查詢的損失變?yōu)?nbsp;,其中  和  分別是正負(fù)查詢的概率分?jǐn)?shù),并且滿足  ,因?yàn)樗鼈兪窍嗤牟樵?。相比之下,只有一個(gè)重復(fù)查詢存在時(shí)的損失值是 。重復(fù)和非重復(fù)情況之間的正分?jǐn)?shù)梯度的比率為α。

          圖片

          很明顯,梯度在 0<p<0.5 時(shí)按比例縮小(α<1),甚至可能在 p>0.5 時(shí)導(dǎo)致負(fù)訓(xùn)練(α<0)。

          1、Duplicate Query Removal

          如示例所示,重復(fù)查詢導(dǎo)致的梯度減小甚至負(fù)訓(xùn)練極大地抑制了收斂。因此,建議去除重復(fù)查詢作為 Sparse R-CNN 中每個(gè)階段的預(yù)處理,如圖 3 所示。由于每個(gè)查詢代表圖像中的一個(gè)潛在實(shí)例,并且一個(gè)實(shí)例可以通過(guò)其在圖像中的位置來(lái)唯一表示 ,自然而然地使用相應(yīng)邊界框的與類別無(wú)關(guān)的重疊率來(lái)檢測(cè)相似查詢。因此,在本研究中,重復(fù)刪除是通過(guò)與類無(wú)關(guān)的非極大值抑制 (NMS) 來(lái)實(shí)現(xiàn)的。

          需要注意的是,查詢的預(yù)處理是為了減輕二分匹配的負(fù)擔(dān),這使得可以選擇一個(gè)激進(jìn)的IoU閾值(本文默認(rèn)為0.7,性能在0.6到0.8變化時(shí)僅在0.3內(nèi)波動(dòng)) 在不同的數(shù)據(jù)集上是穩(wěn)健的。這個(gè)預(yù)處理步驟保持了端到端檢測(cè)器的優(yōu)勢(shì),可以與檢測(cè)定義保持一致。相比之下,傳統(tǒng)的目標(biāo)檢測(cè)器在最終預(yù)測(cè)之后采用類感知 NMS 作為后處理,需要仔細(xì)調(diào)整 IoU 閾值。

          2、Query Distinctness Enhancement

          為了使查詢特征更具判別力,使用提取的相應(yīng)提議框的 RoI 特征來(lái)豐富它們。每個(gè) RoI 特征首先平均池化到 1×1 的大小,然后與原始查詢拼接,然后是一個(gè)恢復(fù)通道數(shù)的卷積層。由于與相應(yīng)的查詢相比,RoI 特征包含更多區(qū)分性的實(shí)例級(jí)信息,因此該組合進(jìn)一步鼓勵(lì)了不同查詢之間的區(qū)別。然后將豐富的查詢應(yīng)用自注意力以推斷相互關(guān)系,然后是動(dòng)態(tài)Head模塊以與 RoI 特征進(jìn)行交互。這部分遵循 Sparse R-CNN 中的原始設(shè)計(jì)。

          3、Light-weighted Iterative Refinement

          與需要 6 個(gè)迭代查詢細(xì)化階段的 Sparse R-CNN 不同,DDQ 只需要 2 個(gè)細(xì)化階段。實(shí)際上,Sparse R-CNN 中的長(zhǎng)迭代階段主要彌補(bǔ)了獨(dú)立稀疏查詢帶來(lái)的缺點(diǎn)。一方面,初始稀疏查詢的相應(yīng)區(qū)域可能遠(yuǎn)離實(shí)例,因此需要長(zhǎng)級(jí)聯(lián)階段來(lái)細(xì)化這些查詢。另一方面,長(zhǎng)細(xì)化還有助于區(qū)分相似查詢以在每個(gè)位置輸出 one-hot 預(yù)測(cè)。相比之下,來(lái)自 RPN 的密集查詢和每個(gè)階段之前的去重預(yù)處理解決了上述問(wèn)題,因此可以在不降低性能的情況下顯著減少迭代細(xì)化的次數(shù)。

          2.4 其他改進(jìn)1、Quality Focal Loss

          作者還遵循最近的一階段方法采用 QFL,使邊界框預(yù)測(cè)和 gt bboxes 之間的 IoU 作為分類目標(biāo)。這種修改是為了更好地對(duì)齊每個(gè)查詢的分類和回歸子任務(wù)。置信度分?jǐn)?shù)更好地反映了回歸質(zhì)量,因此有助于使用與類別無(wú)關(guān)的 NMS 進(jìn)行重復(fù)刪除過(guò)程。除了 QFL 分類,回歸損失函數(shù)遵循 Sparse R-CNN 中的設(shè)計(jì)。

          2、RoIAlign with Flexible Receptive Field

          Sparse R-CNN 將每個(gè)查詢限制為僅關(guān)注 RoIAligned 區(qū)域,這大大降低了計(jì)算開(kāi)銷,但帶來(lái)了局部感受野。局部感受野使模型難以感知邊界框的質(zhì)量。

          圖片圖 3(d)

          因此,設(shè)計(jì)了一個(gè)有效的 RoIAlign with Flexible Receptive Field (FRF),它結(jié)合了來(lái)自特征金字塔中相鄰Level的額外 RoIAligned 特征,如圖 3(d) 所示。在 FRF RoIAlign 的幫助下,每個(gè)查詢都關(guān)注更廣泛的特征,而無(wú)需像 AugFPN 那樣引入繁重的計(jì)算。FRF 也是 QFL 的補(bǔ)充,因?yàn)?nbsp;QFL 中分類和回歸的對(duì)齊需要不同尺度的感受野來(lái)感知邊界框的質(zhì)量。

          3實(shí)驗(yàn)3.1 From Sparse R-CNN to DDQ

          表 1 顯示了本研究中從 Sparse R-CNN 到 DDQ 的逐步提升。使用 300 個(gè)查詢的 Sparse R-CNN 使用標(biāo)準(zhǔn)的 1× 訓(xùn)練實(shí)現(xiàn)了 39.4 AP,這比使用 3× 訓(xùn)練時(shí)間和更重的增強(qiáng)低約 5.6 AP。訓(xùn)練時(shí)間短的性能顯著下降已經(jīng)暗示了 Sparse R-CNN 的收斂困難。

          圖片表 1 From Sparse R-CNN to DDQ

          在每個(gè)階段開(kāi)始時(shí)對(duì)查詢應(yīng)用重復(fù)刪除可將性能提高 2AP 至 41.4AP,而推理速度幾乎沒(méi)有犧牲。將查詢數(shù)量進(jìn)一步增加到 7000 也可以提高性能,但推理時(shí)間會(huì)很長(zhǎng)。

          用開(kāi)發(fā)的 RPN 結(jié)構(gòu)生成的特征替換獨(dú)立查詢并減少到 2 個(gè)細(xì)化階段,保持使用 7000 個(gè)查詢的性能,但在內(nèi)存和推理時(shí)間上的成本顯著降低。最后,DDQ 在延遲方面能夠與 Sparse R-CNN 相媲美,但由于其他一些進(jìn)一步的結(jié)構(gòu)改進(jìn),例如 FRF RoIAlign 和 Query Distinctness Enhancement,它實(shí)現(xiàn)了 44.5 AP。這一性能領(lǐng)先于采用相同Backbone的最先進(jìn)的目標(biāo)檢測(cè)器高 2個(gè)AP。巨大的改進(jìn)證明了密集和不同查詢作為設(shè)計(jì)目標(biāo)檢測(cè)器的指導(dǎo)原則的有效性。

          請(qǐng)注意,DDQ 僅增加了 Sparse R-CNN 的邊際推理延遲(17.7 ms vs 16.4 ms),這比其他競(jìng)爭(zhēng)方法快得多。例如,Deformable DETR 以 21.7 ms 的延遲實(shí)現(xiàn) AP 43.8 AP,Cascade R-CNN 以 19.4 ms 的延遲實(shí)現(xiàn) 40.3 AP。DDQ 都比這些方法實(shí)現(xiàn)了更好的性能和更快的推理。

          3.2 SOTA對(duì)比圖片4參考

          [1].What Are Expected Queries in End-to-End Object Detection?


          本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

          熱式質(zhì)量流量計(jì)相關(guān)文章:熱式質(zhì)量流量計(jì)原理
          流量計(jì)相關(guān)文章:流量計(jì)原理


          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉