ECCV 2022丨輕量級(jí)模型架構(gòu)火了,力壓蘋(píng)果MobileViT(附代碼和論文下載)
論文地址:https://arxiv.org/abs/2203.03952
代碼地址:https://github.com/hkzhang91/ParC-Net
01
概述
最近,vision transformers開(kāi)始顯示出令人印象深刻的結(jié)果,顯著優(yōu)于基于大型卷積的模型。然而,在移動(dòng)或資源受限設(shè)備的小型模型領(lǐng)域,ConvNet在性能和模型復(fù)雜度方面仍然具有自己的優(yōu)勢(shì)。研究者提出了ParC-Net,這是一種純基于ConvNet的骨干模型,通過(guò)將vision transformers的優(yōu)點(diǎn)融合到ConvNet 中,進(jìn)一步增強(qiáng)了這些優(yōu)勢(shì)。
ConvNet與ViT模型圖像分類(lèi)實(shí)驗(yàn)結(jié)果對(duì)比
具體來(lái)說(shuō),研究者提出了位置感知循環(huán)卷積(ParC),這是一種輕量級(jí)的卷積運(yùn)算,它擁有全局感受野,同時(shí)產(chǎn)生與局部卷積一樣的位置敏感特征。將ParCs和squeeze-exictation ops結(jié)合起來(lái)形成一個(gè)類(lèi)似于元模型的模型塊,它還具有類(lèi)似于transformers的注意力機(jī)制。上述塊可以即插即用的方式使用,以替換ConvNets或transformers中的相關(guān)塊。
實(shí)驗(yàn)結(jié)果表明,在常見(jiàn)的視覺(jué)任務(wù)和數(shù)據(jù)集中,所提出的ParC-Net比流行的輕量級(jí)ConvNets和基于vision transformers的模型具有更好的性能,同時(shí)具有更少的參數(shù)和更快的推理速度。對(duì)于ImageNet-1k上的分類(lèi),ParC-Net在大約500萬(wàn)個(gè)參數(shù)的情況下實(shí)現(xiàn)了78.6%的top-1準(zhǔn)確率,節(jié)省了11%的參數(shù)和13%的計(jì)算成本,但準(zhǔn)確率提高了0.2%,推理速度提高了23%(基于ARM的Rockchip RK3288)與MobileViT相比,僅使用0.5倍的參數(shù),但與DeIT相比獲得了2.7%的準(zhǔn)確度。在MS-COCO目標(biāo)檢測(cè)和PASCAL VOC分割任務(wù)上,ParC-Net也表現(xiàn)出更好的性能。
02
背景
然而,我們認(rèn)為ViTs和ConvNets都是不可或缺的,原因如下:1)從應(yīng)用的角度來(lái)看,ViTs和ConvNets都有其優(yōu)點(diǎn)和缺點(diǎn)。ViT模型通常具有更好的性能,但通常計(jì)算成本高且難以訓(xùn)練。與ViTs相比,ConvNets可能表現(xiàn)出較差的性能,但它們?nèi)匀痪哂幸恍┆?dú)特的優(yōu)勢(shì)。例如,ConvNets具有更好的硬件支持并且易于訓(xùn)練。此外,正如[Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers.]和研究者的實(shí)驗(yàn)中總結(jié)的那樣,ConvNets在移動(dòng)或邊緣設(shè)備的小型模型領(lǐng)域仍然占主導(dǎo)地位。2)從信息處理的角度來(lái)看,ViTs和ConvNets都具有獨(dú)特的特征。ViT擅長(zhǎng)提取全局信息,并使用注意力機(jī)制從輸入數(shù)據(jù)驅(qū)動(dòng)的不同位置提取信息。ConvNets專(zhuān)注于對(duì)局部關(guān)系進(jìn)行建模,并且通過(guò)歸納偏置具有很強(qiáng)的先驗(yàn)性。上述分析自然提出了一個(gè)問(wèn)題:我們能否向ViT學(xué)習(xí)以改進(jìn)用于移動(dòng)或邊緣計(jì)算應(yīng)用的ConvNet?
ViT論文:https://arxiv.org/abs/2010.11929
ConvNeXt論文:https://arxiv.org/abs/2201.03545
03
新框架
研究者們?nèi)iT的三個(gè)亮點(diǎn),將純卷積結(jié)構(gòu)變強(qiáng)。研究者認(rèn)為,ViT和ConvNet有三個(gè)主要區(qū)別:ViT更擅長(zhǎng)提取全局特征,采用meta-former結(jié)構(gòu),而且信息集成由數(shù)據(jù)驅(qū)動(dòng)。ParC的設(shè)計(jì)思路便是從這三點(diǎn)著手來(lái)優(yōu)化ConvNet。
普通ConvNet和ViT之間的三個(gè)主要區(qū)別。a)ConvNet常用的Residual block;b)ViT中常用的Meta-Former 結(jié)構(gòu);c)研究者提出的ParC block。
具體而言,研究人員設(shè)計(jì)了一種位置信息敏感的循環(huán)卷積(Position aware circular convolution, ParC)。這是一種簡(jiǎn)單有效的輕量卷積運(yùn)算算子,既擁有像ViT類(lèi)結(jié)構(gòu)的全局感受野,同時(shí)產(chǎn)生了像局部卷積那樣的位置敏感特征,能克服依賴(lài)自注意力結(jié)構(gòu)提取全局特征的問(wèn)題。
Position aware circular convolution
水平方向的全局循環(huán)卷積可以看到ParC-H沿著通過(guò)連接輸入的開(kāi)始和結(jié)束生成的圓執(zhí)行卷積。因此,研究者將提出的卷積命名為循環(huán)卷積。提議的ParC引入了三個(gè)修改:
- 結(jié)合circular padding和大感受野低秩分解卷積核提取全局特征;
- 引入位置嵌入,保證輸出特征對(duì)于空間位置信息的敏感性;
- 動(dòng)態(tài)插值實(shí)時(shí)生成尺寸適配的卷積核和位置編碼,應(yīng)對(duì)輸入分辨率變化情況,這增強(qiáng)了對(duì)不同尺寸輸入的適應(yīng)能力。
研究者還將ParC和squeeze exictation結(jié)合起來(lái),構(gòu)建了一個(gè)純卷積結(jié)構(gòu)的meta former結(jié)構(gòu)。該結(jié)構(gòu)舍棄了自注意力硬件支持不友好的操作,但保留了傳統(tǒng)Transformer塊提取全局特征的特點(diǎn)。研究者還在channel mixer部分引入硬件支持較友好的通道注意力機(jī)制,使其純卷積meta former結(jié)構(gòu)也具備自注意力的特點(diǎn)。
基于ParC結(jié)構(gòu)最終得到的ParC塊,可作為一個(gè)即插即用的基礎(chǔ)單元,替換現(xiàn)有ViT或ConvNet模型中的相關(guān)塊,從而提升精度,并降低計(jì)算成本,有效克服硬件支持的問(wèn)題。
三種主要的混合結(jié)構(gòu)。(a) serial structure; (b) parallel structure; (c) bifurcate structure。
04
實(shí)驗(yàn)分析
在圖像分類(lèi)實(shí)驗(yàn)中,對(duì)于ImageNet-1k的分類(lèi),ParC-Net使用的參數(shù)規(guī)模最?。s500萬(wàn)個(gè)參數(shù)),卻實(shí)現(xiàn)了最高準(zhǔn)確率78.6%。
MobileViT是Apple2022年在國(guó)際深度學(xué)習(xí)頂會(huì)ICLR22上提出的輕量級(jí)通用ViT模型。同樣部署在基于Arm的瑞芯微RK3288芯片上,相較基線模型MobileViT,ParC-Net節(jié)省了11%的參數(shù)和13%的計(jì)算成本,同時(shí)準(zhǔn)確率提高了0.2%,推理速度提高了23%。
MS-COCO物體檢測(cè)實(shí)驗(yàn)結(jié)果
PASCAL VOC分割任務(wù)實(shí)驗(yàn)結(jié)果
研究者將ParC-Net和基線模型MobileVit均部署到自研低功耗芯片DP上進(jìn)行推理速度測(cè)試。從實(shí)驗(yàn)結(jié)果可以看到,ParC-Net的推理速度能夠達(dá)到MobileViT速度的3~4倍。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專(zhuān)題:linux操作系統(tǒng)詳解(linux不再難懂)