推理速度快YOLOV4五倍的YOLObile:通過壓縮編譯在移動(dòng)端實(shí)時(shí)檢測(cè)
目標(biāo)檢測(cè)技術(shù)的迅速發(fā)展和廣泛應(yīng)用,引起了人們對(duì)目標(biāo)檢測(cè)器的精度和速度的關(guān)注。然而,目前最先進(jìn)的目標(biāo)檢測(cè)工作要么是精度導(dǎo)向使用大模型,但導(dǎo)致高延遲,要么是速度導(dǎo)向使用輕量級(jí)模型,但犧牲精度。在這項(xiàng)工作中,作者提出了YOLObile框架,通過壓縮編譯協(xié)同設(shè)計(jì)在移動(dòng)設(shè)備上實(shí)時(shí)檢測(cè)對(duì)象。提出了一種適用于任意核大小的塊穿孔剪枝方案。為提高移動(dòng)設(shè)備上的計(jì)算效率,采用GPU-CPU協(xié)同方案,并輔以高級(jí)編譯器輔助優(yōu)化。實(shí)驗(yàn)結(jié)果表明,新提出的剪枝方案在49.0 mAP的情況下,可以實(shí)現(xiàn)YOLOv4的14倍壓縮率。在YOLObile框架下,使用三星Galaxy S20的GPU實(shí)現(xiàn)了17 FPS的推理速度。通過加入新提出的GPU-CPU協(xié)同方案,推理速度提高到19.1幀/秒,比原來(lái)的YOLOv4加速5倍。
總結(jié)
在本次工作中,提出了一個(gè)基于壓縮編譯協(xié)同設(shè)計(jì)的移動(dòng)設(shè)備實(shí)時(shí)目標(biāo)檢測(cè)框架YOLObile。此外,還提出了一種新的剪枝方案——區(qū)塊剪枝,該方案適用于任意核大小的卷積層和全連接層。為了提高移動(dòng)設(shè)備上DNNs的計(jì)算效率,除了新提出的編譯器優(yōu)化之外,提出的YOLObile還提供了一個(gè)GPU-CPU協(xié)同計(jì)算方案。經(jīng)過實(shí)驗(yàn)證明,新提出的YOLObile框架展現(xiàn)出了高準(zhǔn)確性、高效率,并同時(shí)實(shí)現(xiàn)了高硬件并行性!
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
電路圖符號(hào)相關(guān)文章:電路圖符號(hào)大全
電容傳感器相關(guān)文章:電容傳感器原理