一覽端到端人臉識別最新進(jìn)展,上大&京東AI研究院綜述被ACM旗艦期刊接收
人臉識別是計算機(jī)視覺(CV)領(lǐng)域中最熱門和悠久的研究課題之一。本篇綜述全面地回顧了端到端深度學(xué)習(xí)人臉識別系統(tǒng)的三個組成要素,包括人臉檢測、人臉對齊和人臉表征。從最新的算法設(shè)計,評估指標(biāo),數(shù)據(jù)集,方法性能比較,現(xiàn)有的挑戰(zhàn)和未來發(fā)展方向等方面展開介紹,同時討論了不同要素對后續(xù)環(huán)節(jié)和整體識別系統(tǒng)的影響。通過該綜述,作者期望讀者能夠認(rèn)識到各個要素中值得進(jìn)一步探索的方法,以及如何從頭開始選擇合適的方法來建立一套先進(jìn)的端到端人臉識別系統(tǒng)。該綜述已被 ACM 旗艦期刊 Computing Surveys(IF 10.282)接收。
端到端深度人臉識別系統(tǒng)由三個關(guān)鍵要素構(gòu)成:人臉檢測(face detection)、人臉對齊(face alignment)和人臉表征(face representation)。其中,人臉檢測的作用是定位靜止圖像或視頻幀中的人臉位置。然后,人臉對齊將人臉校準(zhǔn)到一個規(guī)范的視角,并將人臉圖像裁剪到一個標(biāo)準(zhǔn)化像素大小。最后,在人臉表征階段,從對齊后的圖像中提取具有鑒別性的特征用于識別。
在實際應(yīng)用中,端到端人臉識別系統(tǒng)的性能表現(xiàn)同時取決于上述三種組成要素,任何一個環(huán)節(jié)出現(xiàn)短板,都會對端到端系統(tǒng)的識別性能造成不良影響,成為人臉識別系統(tǒng)的瓶頸。為了建立一套先進(jìn)的端到端人臉識別系統(tǒng),因此有必要理解每個要素對系統(tǒng)整體的影響,以及各個要素之間的內(nèi)在聯(lián)系。
論文地址:https://arxiv.org/pdf/2009.13290.pdf
因此,來自上海大學(xué)、京東 AI 研究院和瑞爾森大學(xué)的研究者聯(lián)合撰寫的這篇綜述具有以下幾項主要貢獻(xiàn):
系統(tǒng)地調(diào)研并回顧了端到端深度人臉識別三個組成要素的最近進(jìn)展;
從多個方面介紹了這三個組成要素: 算法設(shè)計、評估指標(biāo)、數(shù)據(jù)集和性能比較。并且指出了各個要素對其后續(xù)環(huán)節(jié)和整體系統(tǒng)的影響;
分析了每個要素及其子類別現(xiàn)有的挑戰(zhàn)和發(fā)展方向,并從整體系統(tǒng)的角度進(jìn)一步討論了主要的挑戰(zhàn)和未來趨勢。
下圖 1 為端到端人臉識別系統(tǒng)的流程展示:
下圖 2 介紹了各章節(jié)的主要內(nèi)容,圖中左側(cè)部分主要是功能性的介紹,包括參考提供全面介紹和討論的功能內(nèi)容。右側(cè)部分為技術(shù)性的內(nèi)容,對三個要素分別進(jìn)行了詳細(xì)的分析。
人臉檢測
給定一幅輸入圖像,人臉檢測的目標(biāo)是找到圖像中所有的人臉,并給出所有人臉的包圍框的坐標(biāo)和置信度得分。為了讓讀者更好的認(rèn)識和理解人臉檢測的發(fā)展,研究者從多個角度對人臉檢測方法進(jìn)行了分類,包括多階段、單階段、anchor-based、anchor-free、多任務(wù)學(xué)習(xí)、CPU 實時、面向問題等方法,具體分類可以參考下表 1。
表 1:深度人臉檢測方法的類別
下圖 3 給出了具有代表性的人臉檢測方法的發(fā)展歷程。
圖 3:臉檢測方法的發(fā)展歷程
此外,研究者討論了人臉檢測方法對后續(xù)人臉對齊和表征環(huán)節(jié)的影響。不精確的檢測框會導(dǎo)致人臉關(guān)鍵點定位性能下降,使用更魯棒的人臉檢測器能夠進(jìn)一步提升識別性能。相關(guān)實驗結(jié)果如下圖 4 所示。
圖 4:人臉檢測對后續(xù)要素的影響
人臉對齊
人臉對齊的目標(biāo)是將檢測到的人臉校準(zhǔn)到一個規(guī)范的標(biāo)準(zhǔn)化視圖,并裁剪為固定圖像尺寸的圖像,這是提高人臉識別性能的必要步驟。人臉對齊方法包括基于關(guān)鍵點對齊和不使用關(guān)鍵點的兩種技術(shù)方案。其中,基于關(guān)鍵點的對齊方法是目前最常用的方案,根據(jù)如何獲取關(guān)鍵點可分為坐標(biāo)點回歸、熱力圖回歸以及 3D 模型擬合三種方法。不使用關(guān)鍵點的人臉對齊方法通過可學(xué)習(xí)的方式直接生成對齊后的人臉圖像,具體分類可以參考下表 2。
表 2:人臉對齊方法的類別
下圖 5 給出了人臉對齊方法的發(fā)展歷程。
圖 5:人臉對齊方法的發(fā)展歷程
同時,研究者進(jìn)一步討論了五種不同的對齊方法對人臉識別性能的影響。下圖 6 中的實驗結(jié)果表明恰當(dāng)?shù)膶R策略能夠有利于提升人臉識別性能。
圖 6:合適的對齊策略有利于提升人臉識別性能
人臉表征
人臉表征利用深度卷積神經(jīng)網(wǎng)絡(luò)模型從預(yù)處理后的人臉圖像中提取具有身份判別力的特征,這些特征用于計算匹配人臉之間的相似度。我們從網(wǎng)絡(luò)模型架構(gòu),訓(xùn)練監(jiān)督,以及具體的識別任務(wù)三個方面對人臉表征分別進(jìn)行介紹,方法的具體分類可參考下表 3。
表 3:人臉表征學(xué)習(xí)方法的類別
下圖 7 是人臉表征訓(xùn)練監(jiān)督方法的發(fā)展歷程,包含了分類學(xué)習(xí)、特征嵌入、混合方法以及半監(jiān)督學(xué)習(xí)四種方案。
圖 7:人臉表征訓(xùn)練監(jiān)督方法
下圖 8 是三種有監(jiān)督人臉表示學(xué)習(xí)方法與公開數(shù)據(jù)集規(guī)模的發(fā)布趨勢,其中分類學(xué)習(xí)是目前主流研究和采用的方法。可以發(fā)現(xiàn)隨著訓(xùn)練和測試的數(shù)據(jù)集規(guī)模不斷增加,對大規(guī)模數(shù)據(jù)集進(jìn)行閉集分類訓(xùn)練,可以近似模擬人臉識別的開集場景。這可能是近年來基于分類的訓(xùn)練方法得到廣泛研究并占據(jù)主導(dǎo)地位的原因。
圖 8:三種監(jiān)督人臉表示學(xué)習(xí)方法與公開數(shù)據(jù)集規(guī)模的發(fā)布趨勢
討論和總結(jié)
最后,研究者分析了端到端人臉識別系統(tǒng)各個組成要素現(xiàn)有的問題和未來趨勢,同時還有三種要素共有的挑戰(zhàn),以及面向整個識別系統(tǒng)的角度討論了現(xiàn)有挑戰(zhàn)和發(fā)展方向,如下表 4 所示。
表 4:端到端深度人臉識別系統(tǒng)的主要挑戰(zhàn)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。