ECCV 2022 | 清華&騰訊AI Lab提出REALY: 重新思考3D人臉重建的評估方法
來源丨人臉人體重建編輯丨極市平臺 極市導(dǎo)讀
本文圍繞3D人臉重建的評估方式進(jìn)行了重新的思考和探索。作者團(tuán)隊(duì)通過構(gòu)建新數(shù)據(jù)集RELAY,囊括了更豐富以及更高質(zhì)量的臉部區(qū)域信息,并借助新的流程對先前的數(shù)十個重建算法、3DMM進(jìn)行了評價(jià)。
本文分享ECCV 2022論文《REALY: Rethinking the Evaluation of 3D Face Reconstruction》,對3D人臉重建的評估方法進(jìn)行重新思考。該論文提出一個新的3D人臉重建的benchmark數(shù)據(jù)集,名為REALY benchmark,和相應(yīng)的評估方法,能對于重建的3D人臉模型在不同臉部區(qū)域進(jìn)行細(xì)粒度評價(jià),并對于主流的單張照片3D人臉重建算法進(jìn)行了詳細(xì)的評測。另外,該論文同時(shí)公開了一個由近2000個人臉掃描模型構(gòu)建的高質(zhì)量全頭模型3DMM基底:HIFI3D++,該基底相對于BFM、FWH、FaceScape、FLAME、LSFM、LYHM等3DMM基底有更強(qiáng)的表達(dá)能力和更高的Mesh模型質(zhì)量。相關(guān)代碼和3DMM已開源。此項(xiàng)工作由清華大學(xué)與騰訊AI Lab合作完成。論文鏈接:https://arxiv.org/abs/2203.09729代碼鏈接:https://github.com/czh-98/REALY項(xiàng)目網(wǎng)站:https://www.realy3dface.com/
一、簡介3D人臉重建歷經(jīng)多年發(fā)展,不同的重建方案層出不窮,然而對于不同方法重建結(jié)果的定量評價(jià)卻存在明顯的問題和缺陷,即客觀指標(biāo)與人的主觀感受難以相符。回顧先前的3D人臉重建評價(jià)方案,基于3D頂點(diǎn)的評價(jià)流程通常借助關(guān)鍵點(diǎn)進(jìn)行scale和pose的預(yù)對齊,并通過Iterative Closest Point (ICP)算法進(jìn)行微調(diào)使得predicted mesh和ground-truth scan對齊,再通過兩者的最近鄰點(diǎn)建立頂點(diǎn)的對應(yīng)關(guān)系,并計(jì)算這組對應(yīng)關(guān)系的NMSE/RMSE作為指標(biāo)。本文首先分析這樣的評價(jià)流程存在的問題,揭示了先前的評價(jià)方案無法與主觀評價(jià)相吻合的重要原因:_即全局的剛性對齊會受到臉部局部區(qū)域重建質(zhì)量的影響,并且根據(jù)單方向距離(最近鄰點(diǎn))建立的對應(yīng)關(guān)系無法保證頂點(diǎn)之間語義信息的一致性。_所以我們構(gòu)建了REALY benchmark,設(shè)計(jì)了新的3D人臉重建評價(jià)方案,并對先前的模型和3DMM進(jìn)行了重新的評價(jià),驗(yàn)證了我們的評價(jià)流程的合理性。此外,在構(gòu)建新的benchmark的過程中,我們通過整合約2000個高質(zhì)量的人臉scan數(shù)據(jù),進(jìn)行拓?fù)浣Y(jié)構(gòu)的統(tǒng)一,從而構(gòu)建了一個新的具有高表達(dá)能力的3DMM,其拓?fù)浣Y(jié)構(gòu)、基的維度都要優(yōu)于先前的3DMM,并在RGB-(D) Fitting的比較中證明其表達(dá)能力和重建效果。
二、論文動機(jī)先前的評價(jià)方案存在以下兩個主要問題。1. ICP對齊過程對局部區(qū)域的變化比較敏感。直觀而言,對于兩個完全重合的3D mesh,如果我們只對predicted mesh的鼻子區(qū)域進(jìn)行修改,理想狀況下,兩個mesh對齊結(jié)果應(yīng)該如中間所示,因?yàn)槠渌麉^(qū)域在改變前后與ground-truth是完全重合的,兩者的誤差應(yīng)該主要集中在鼻子區(qū)域;而根據(jù)以往的評價(jià)流程,全局對齊操作則會由于鼻子區(qū)域的變化,導(dǎo)致對齊后mesh整體的位置發(fā)生偏移而帶來誤差的放大。對此,本文將人臉的評估分為四個區(qū)域,分別對每一個區(qū)域進(jìn)行對齊、評估,而不考慮其他區(qū)域的影響。2. 單向的最近鄰點(diǎn)建立的對應(yīng)關(guān)系容易導(dǎo)致語義信息的不一致。如圖所示,對于predicted mesh上的某一點(diǎn)x,在計(jì)算誤差時(shí)需要找到ground-truth scan上的對應(yīng)點(diǎn),若通過點(diǎn)到平面的最近距離建立對應(yīng)關(guān)系,則可能為y1。這時(shí),雖然y1是x距離最近的點(diǎn),然而他們在語義信息上沒有關(guān)聯(lián)性,與嘴角的點(diǎn)x相關(guān)聯(lián)的應(yīng)該是y2,然而y2不會是x所對應(yīng)的最近點(diǎn)。在這樣的情況下,雖然計(jì)算得到的誤差較小,但由于對應(yīng)點(diǎn)之間的語義信息并不一致,因此計(jì)算得到的誤差并不靠譜,較小的誤差并不能表明較大的相似度。對此我們提出使用一步額外反方向非剛性對齊,并且其中增加了包含有語義信息的關(guān)鍵點(diǎn)損失,從而得到語義上更加一致的對應(yīng)關(guān)系。
三、REALY為了解決上述兩個問題,我們首先構(gòu)建了一個新的benchmark,包含100個2D圖片-3D scan對,其中每個scan渲染了5個不同視角下(包含1個正臉和4個側(cè)臉)的RGB圖片及深度圖片;對于每個3D scan,我們都得到了語義信息一致的68個關(guān)鍵點(diǎn)以及不同臉部區(qū)域的mask,并在此基礎(chǔ)上首次實(shí)現(xiàn)了3D人臉在不同區(qū)域上的細(xì)粒度評價(jià)。我們的benchmark的部分?jǐn)?shù)據(jù)如下圖所示。數(shù)據(jù)集的構(gòu)建過程借助256個關(guān)鍵點(diǎn)進(jìn)行對齊和轉(zhuǎn)拓?fù)洌_保了統(tǒng)一拓?fù)涞膍esh的質(zhì)量,進(jìn)而保證了不同id的人臉區(qū)域的mask以及關(guān)鍵點(diǎn)的一致性。
四、新的評價(jià)流程在REALY的基礎(chǔ)上,我們提出一個新的評價(jià)流程避免先前評價(jià)流程的問題,具體而言,我們的評價(jià)流程包含如下兩個步驟:
- 局部區(qū)域的對齊:考慮到不同區(qū)域的重建質(zhì)量會影響全局的對齊結(jié)果,由于我們的benchmark得到了不同臉部區(qū)域的mask,因此我們可以借助這個信息將predicted mesh對齊到ground-truth scan的特定區(qū)域,在error計(jì)算時(shí)只計(jì)算ground-truth scan上的特定區(qū)域與predicted mesh之間的誤差,而不考慮臉部其他區(qū)域?qū)τ趯R結(jié)果以及誤差計(jì)算的影響。
- 對應(yīng)關(guān)系的建立:在局部對齊的基礎(chǔ)上,我們需要建立ground-truth scan某一區(qū)域上的每一個點(diǎn)與predicted mesh之間的對應(yīng)點(diǎn)并計(jì)算兩者的誤差??紤]到先前基于最近點(diǎn)的方式存在的問題,我們提出一個新的對應(yīng)關(guān)系的建立方法,提高了關(guān)鍵點(diǎn)語義信息的一致性。
具體而言,我們首先通過最近點(diǎn)建立初步的對應(yīng)關(guān)系;隨后借助non-rigid ICP將ground-truth scan某一區(qū)域變形到predicted mesh上,由于變形后的區(qū)域與predicted mesh已經(jīng)貼合,因?yàn)樵谧冃芜^程中考慮了具備語義信息的關(guān)鍵點(diǎn)損失,所以這時(shí)的對應(yīng)關(guān)系相比于原始的最近點(diǎn)的對應(yīng)關(guān)系具有更好的語義關(guān)系的一致性(如,圖3中臉部關(guān)鍵點(diǎn)的一致性),從而我們對初始的對應(yīng)關(guān)系進(jìn)行更新;最后,由于變形前后的拓?fù)湫螤畹囊恢滦?,我們能夠借助更新后的對?yīng)關(guān)系計(jì)算原始的ground-truth scan區(qū)域與局部對齊的mesh之間的最終誤差。通過本文提出的評價(jià)流程,我們能夠建立語義信息更一致的對應(yīng)關(guān)系,從而提升最終評價(jià)結(jié)果的可靠性。直觀而言,如圖所示,對于ground-truth scan嘴部區(qū)域的關(guān)鍵點(diǎn),我們分別比較了predicted mesh使用先前的對齊方法(gICP),以及本文提出的基于區(qū)域的對齊方法(rICP)以及基于形變的關(guān)鍵點(diǎn)更新策略(bICP)在ground-truth scan上找到的對應(yīng)點(diǎn)與真實(shí)的嘴部關(guān)鍵點(diǎn)的差異,可以發(fā)現(xiàn),我們的方法建立的關(guān)鍵點(diǎn)與真實(shí)的關(guān)鍵點(diǎn)更加接近,因此這時(shí)的誤差最能體現(xiàn)真實(shí)的相似性。
五、新的人臉3DMM:HIFI3D++在構(gòu)建benchmark的過程中,我們對于一些高質(zhì)量的人臉數(shù)據(jù)(Headspace, FaceScape, HIFI3D)進(jìn)行了拓?fù)浣Y(jié)構(gòu)的統(tǒng)一,得到了約2000個不同性別、年齡、種族的人臉mesh,在此基礎(chǔ)上,我們構(gòu)建了一個全頭人臉3DMM并命名為HIFI3D++,不僅包含臉部區(qū)域,還包含脖子、眼球、口腔,不同拓?fù)浣Y(jié)構(gòu)的比較如圖1所示。表1統(tǒng)計(jì)了開源的3DMM與HIFI3D++的基本信息,圖9則顯示了不同3DMM的variation,我們的RGB(-D) Fitting實(shí)驗(yàn)也證明了HIFI3D++在表達(dá)能力上優(yōu)于先前的3DMM。
六、實(shí)驗(yàn)1. 評價(jià)方案有效性的證明我們首先在toy數(shù)據(jù)上證明我們的評價(jià)流程相較于先前的方法的優(yōu)越性。通過替換一組統(tǒng)一拓?fù)淙四樀牟煌瑓^(qū)域,采用不同的評價(jià)流程進(jìn)行對齊和對應(yīng)關(guān)系的建立,比較了不同評價(jià)流程 i) 由于對齊導(dǎo)致的誤差以及 ii) 建立的對應(yīng)點(diǎn)與ground-truth真實(shí)對應(yīng)點(diǎn)之間的誤差,結(jié)果如圖4和表2、3所示。從圖4來看,全局的對齊策略(右圖)由于局部區(qū)域的改變?nèi)菀讓?dǎo)致全局誤差的變化,而我們的對齊策略則只聚焦于特定區(qū)域(右圖),其中對角線的error map表明誤差較大的區(qū)域,而非對角線的error map的誤差較小,對應(yīng)沒有發(fā)生變化的區(qū)域。從表2來看,我們的對齊結(jié)果通過ground-truth的對應(yīng)點(diǎn)計(jì)算得到的誤差與真實(shí)的誤差更為接近,而全局的對齊策略則導(dǎo)致誤差與真實(shí)誤差不匹配。從表3來看,我們的對應(yīng)點(diǎn)計(jì)算策略帶來的誤差要顯著小于全局對齊后最近點(diǎn)獲得的對應(yīng)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,我們的評價(jià)流程不僅能夠聚焦到臉部區(qū)域有差異的部分(圖4和表2的對角線),并且我們的對應(yīng)關(guān)系建立更加準(zhǔn)確(表3)。
2. 不同方法在REALY benchmark上的表現(xiàn)我們對比了先前的評價(jià)流程與我們提出的評價(jià)流程在REALY benchmark上的表現(xiàn)。對于先前的評價(jià)方法,我們從兩個方向(即ground-truth scan的每個點(diǎn)與predicted mesh建立對應(yīng)關(guān)系,以及predicted mesh每個點(diǎn)與ground-truth scan建立對應(yīng)關(guān)系)作為對比,定量與定性的比較如表4和圖5所示。我們通過user study投****選出各組最好(*)/次好(?)的人臉,通過比較不同評價(jià)流程選出的最好的人臉(橙、藍(lán)、紫框)可以發(fā)現(xiàn),我們的評價(jià)流程(橙框)選出的最好的人臉與user study的投****結(jié)果匹配程度更高。并且,我們的評價(jià)流程給出了細(xì)粒度的評測結(jié)果,即:對不同的人臉區(qū)域都能進(jìn)行定量的評價(jià)和比較。
3. 不同3DMM在REALY上的表現(xiàn)借助REALY benchmark,本文采用RGB(-D) Fitting的方式對不同3DMM的表達(dá)能力進(jìn)行了評價(jià),定量與定性的比較如表5和圖8所示。定量和定性的結(jié)果表明,我們的3DMM在REALY上取得了更優(yōu)的重建效果,并且,通過不同方法的比較表明,RGB-D Fitting的結(jié)果要顯著優(yōu)于目前最好的重建算法,3D人臉重建任務(wù)仍有很大的提升空間。為了進(jìn)一步證明HIFI3D++的表達(dá)能力,我們只用頂點(diǎn)損失,根據(jù)最小二乘的方式擬合一組mesh,對HIFI3D/HIFI3D(A)/HIFI3D++進(jìn)行比較,如圖9所示。
七、總結(jié)本文是我們對3D人臉重建評價(jià)的重新思考和探索。針對先前的評價(jià)指標(biāo)無法準(zhǔn)確衡量重建mesh與ground-truth相似性的問題,我們構(gòu)建了一個新的數(shù)據(jù)集——REALY,包含更加豐富以及高質(zhì)量的臉部區(qū)域信息,并借助新的評價(jià)流程對先前的數(shù)十個重建算法、3DMM進(jìn)行了評價(jià)。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。