基于Kinect人體動(dòng)態(tài)三維重建
摘要:從圖像中恢復(fù)出三維物體表面模型的方法稱為3D重構(gòu),是計(jì)算機(jī)圖形學(xué)研究領(lǐng)域中一個(gè)重要的研究方向。準(zhǔn)確可靠的三維動(dòng)態(tài)幾何重建在影視制作和游戲開(kāi)發(fā)中具有重要作用。不同于靜態(tài)物體表面三維重建,動(dòng)態(tài)幾何三維重建需要研究幀與幀之間準(zhǔn)確的對(duì)應(yīng)信息。本文提出的方法基于單個(gè)Kinect硬件系統(tǒng),利用Kinect重建出人體的靜態(tài)三維模型,結(jié)合Kinect識(shí)別出的骨架進(jìn)行人物的動(dòng)態(tài)三維模型重建。
本文引用地址:http://cafeforensic.com/article/201608/296185.htm1 內(nèi)容介紹
近年來(lái),計(jì)算機(jī)動(dòng)畫(huà)及計(jì)算機(jī)視覺(jué)的快速發(fā)展使得運(yùn)動(dòng)物體的幾何跟蹤變得重要起來(lái)。而現(xiàn)代CG動(dòng)畫(huà)中創(chuàng)建準(zhǔn)確可靠的動(dòng)態(tài)幾何三維數(shù)字化也是相當(dāng)重要的一部分。其應(yīng)用領(lǐng)域非常廣泛,包含機(jī)器人學(xué)、生物醫(yī)學(xué)、交互游戲式的教育和影視制作等。
人體三維重建就是指通過(guò)獲取包括RGB-D信息或者輪廓信息等原始數(shù)據(jù),然后對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,如濾波、去噪和增強(qiáng)等,再進(jìn)行針對(duì)這些數(shù)據(jù)的分析,如前景分割和特征提取等,最后通過(guò)重建算法進(jìn)行三維表面的重建。
2 相關(guān)工作
目前,大多數(shù)的研究機(jī)構(gòu)和高校通過(guò)搭建一些由多個(gè)相機(jī)組成的相機(jī)陣列進(jìn)行360度的人體表面模型重建。大致上可以將其分為四類:實(shí)時(shí)繪制類、基于人體模板類、無(wú)人體模板類及窄基線類等。
實(shí)時(shí)繪制類系統(tǒng)主要是用于實(shí)時(shí)的交互編制的三維場(chǎng)景重建方法,在交互式立體游戲和遠(yuǎn)程視頻會(huì)議等方面有較多的應(yīng)用。它的核心技術(shù)主要是通過(guò)輪廓進(jìn)行形狀的恢復(fù)。文獻(xiàn)[1-3]中的系統(tǒng)采用體素離散化的方法進(jìn)行人體三維對(duì)象的實(shí)體體素?;谌梭w模板類系統(tǒng)是單相機(jī)或多相機(jī)進(jìn)行非標(biāo)記的運(yùn)動(dòng)捕捉方法的主要策略。該方法通過(guò)提取并計(jì)算基于骨架信息的模型參數(shù)進(jìn)行人體姿態(tài)的恢復(fù),同時(shí)還可以獲得時(shí)間上的運(yùn)動(dòng)參數(shù)描述?;诙嘁晥D的無(wú)模板主要是基于多視圖的無(wú)模板的三維重建方法。這種方法不需要有關(guān)場(chǎng)景對(duì)象的先驗(yàn)知識(shí),通過(guò)多視圖上的立體匹配方法就可以進(jìn)行三維重建。這類系統(tǒng)最早的也是最具有代表性的是“Virtualized Reality”項(xiàng)目[4]所搭建的。而窄基線類采集系統(tǒng)是對(duì)比有限視角范圍內(nèi)的場(chǎng)景深度信息進(jìn)行恢復(fù),達(dá)到虛擬插值的結(jié)果。這種系統(tǒng)相鄰相機(jī)間距離較小,不能提取完整的三維信息。這種非全景采集方式的多攝像機(jī)系統(tǒng)通常是基于深度圖進(jìn)行求解和繪制實(shí)現(xiàn)的。Zitnick 等[5]在微軟研究院搭建了高質(zhì)量場(chǎng)景虛擬視圖繪制系統(tǒng)。
采用以上的系統(tǒng)進(jìn)行重建的方法可以統(tǒng)一稱為被動(dòng)式的方法。而主動(dòng)式的方法比這類被動(dòng)式的方法更精準(zhǔn),最常見(jiàn)的主動(dòng)式的方法是通過(guò)激光掃描儀進(jìn)行三維重建。但這種方法對(duì)實(shí)驗(yàn)設(shè)備要求高,處理過(guò)程也比較復(fù)雜。而基于結(jié)構(gòu)光的方法[6]成本較低,但無(wú)法恢復(fù)物體的紋理信息。基于飛行時(shí)間(Time of Flight, ToF)的深度相機(jī)[7]是一種可以實(shí)時(shí)獲得場(chǎng)景深度信息的技術(shù),它通過(guò)主動(dòng)地向待測(cè)場(chǎng)景發(fā)射被調(diào)制的光脈沖,用傳感器接收從物體返回的光,并計(jì)算光脈沖的飛行(往返)時(shí)間來(lái)得到場(chǎng)景的深度圖。微軟推出的3D體感器Kinect[8]同時(shí)具有了低成本和多傳感捕捉的優(yōu)點(diǎn),不僅可以采集到精確的深度幾何信息,而且可以輸出場(chǎng)景的紋理信息。所以,本文主要探討通過(guò)使用低廉的Kinect相機(jī)對(duì)運(yùn)動(dòng)的人體進(jìn)行三維重建。
3.1 系統(tǒng)方法概述
本文提出的方法主要利用Kinect fusion[9]掃描出來(lái)的演員三維靜態(tài)模型、深度和骨架序列,基于骨架非標(biāo)記的運(yùn)動(dòng)捕捉方法獲取新的骨架序列和每個(gè)動(dòng)作的動(dòng)態(tài)三維模型。由于Kinect采集的骨架序列無(wú)法保持拓?fù)湟恢滦?,本章提出一種新的利用多優(yōu)先級(jí)反向運(yùn)動(dòng)學(xué)方法(inverse kinematics method)[10]進(jìn)行處理,來(lái)獲取動(dòng)作參數(shù)和拓?fù)涔羌苓\(yùn)動(dòng)序列。三維模型上的每個(gè)點(diǎn)對(duì)于骨架節(jié)點(diǎn)的權(quán)重自動(dòng)計(jì)算出來(lái),該權(quán)重描述了靜態(tài)三維模型與骨架之間的關(guān)系。基于計(jì)算出的權(quán)重,利用雙四元數(shù)剝皮(dual quaternions skinning (DQS) method)方法[11]計(jì)算出新骨架的三維模型。然后通過(guò)稀疏表示進(jìn)行變形后模型的優(yōu)化,如圖3所示。
3.2 自適應(yīng)多優(yōu)先級(jí)運(yùn)動(dòng)估計(jì)
基于剛性變形理論[12],進(jìn)行自適應(yīng)多優(yōu)先級(jí)的運(yùn)動(dòng)估計(jì)。對(duì)于基于體感相機(jī)骨架姿態(tài)的運(yùn)動(dòng)參數(shù)骨架,每個(gè)骨架節(jié)點(diǎn)的位置約束不可能同時(shí)滿足,因此為經(jīng)典的矛盾性問(wèn)題。如圖1所示,該問(wèn)題的解決方法一般有兩類:一是加權(quán)方法,二是優(yōu)先級(jí)方法。加權(quán)方法是最常用、最簡(jiǎn)單的方法,優(yōu)先級(jí)方法則便于設(shè)計(jì)優(yōu)先級(jí)引導(dǎo)的運(yùn)動(dòng)估計(jì)方法,使得可以更準(zhǔn)確地仲裁各個(gè)矛盾。因此,擬根據(jù)體感相機(jī)骨架拓?fù)渥兓姆€(wěn)定性,即每個(gè)節(jié)點(diǎn)所對(duì)應(yīng)肢節(jié)長(zhǎng)度的變化,設(shè)定優(yōu)先級(jí)的高低。越穩(wěn)定的節(jié)點(diǎn),優(yōu)先級(jí)越高,反之亦然。
本部分?jǐn)M設(shè)計(jì)三重循環(huán)優(yōu)先級(jí)算法來(lái)求解經(jīng)典的反向運(yùn)動(dòng)學(xué)問(wèn)題。從內(nèi)到外,分別為優(yōu)先級(jí)循環(huán)、箝位循環(huán)、收斂循環(huán)。其中,優(yōu)先級(jí)循環(huán)按照優(yōu)先級(jí)從高到低循環(huán)處理計(jì)算,箝位循環(huán)用來(lái)檢查并去除已達(dá)極限的節(jié)點(diǎn),收斂循環(huán)用來(lái)控制收斂性。如圖2所示,以兩個(gè)優(yōu)先級(jí)的矛盾性問(wèn)題為例進(jìn)行說(shuō)明。假設(shè)一個(gè)兩個(gè)自由度的鏈{θ1,θ1},鏈的末端有個(gè)x方向上的高優(yōu)先級(jí)約束Δx1,前臂中段有個(gè)y方向上的低優(yōu)先級(jí)約束Δx2。那么,線性化求解方案為:
(1)
其中,Δθ為n維姿態(tài)變化向量,Δx為m維的約束,J為m×n的雅可比矩陣,N(J)表示J的零空間,PN(J)為n×n的到N(J)空間的投影算子,阻尼最小二乘逆J+λ定義為:
(2)
其中,r為矩陣J的秩,σi為矩陣J的奇異值,{ui}和{vi}分別是J空間和N(J)的補(bǔ)空間的基向量,λ為阻尼因子。
3.3 保體積真實(shí)感變形
為了在模型變形中保持體積和局部細(xì)節(jié),本方案擬首先將靜態(tài)三維模型根據(jù)骨架結(jié)構(gòu)分為若干個(gè)部分,并采用熱擴(kuò)散的方法計(jì)算蒙皮權(quán)重。然后,用埃爾米特徑向基函數(shù),即一個(gè)平滑三維標(biāo)量場(chǎng)fi的0.5等值面,來(lái)近似每個(gè)部分表面,并采用梯度控制的融合方法將各個(gè)部分的fi融合為一個(gè)統(tǒng)一的場(chǎng)函數(shù)。保存靜態(tài)模型每個(gè)頂點(diǎn)的場(chǎng)值f0(pi)(包含了幾何細(xì)節(jié)信息)。每個(gè)標(biāo)量場(chǎng)fi根據(jù)權(quán)重和骨架參數(shù)通過(guò)對(duì)偶四元數(shù)方法進(jìn)行變換,并同樣采用梯度控制的融合方法將各個(gè)部分的fi融合為一個(gè)統(tǒng)一的場(chǎng)函數(shù)f。為了保持模型的幾何細(xì)節(jié),采用牛頓迭代法將每個(gè)頂點(diǎn)pi投影到靜態(tài)姿態(tài)的場(chǎng)值f0(pi)上:
(3)
其中,λ用來(lái)調(diào)節(jié)收斂速度和精度。為了避免面片產(chǎn)生較大的失真甚至自相交,采用以下公式迭代計(jì)算頂點(diǎn)位置:
(4)
其中,,qi,j是投影到pi切平面的單環(huán)鄰域點(diǎn),是重心坐標(biāo),使得。最后,采用拉普拉斯平滑技術(shù)進(jìn)行平滑:
(5)
其中,的單環(huán)領(lǐng)域的中心。
3.4 優(yōu)化
基于稀疏表示的非剛性配準(zhǔn)方法(Sparse Non-Rigid Registration)[13]定義通過(guò)DQS變形后的模型Ms上的點(diǎn)為,N是點(diǎn)的個(gè)數(shù)。同樣,將深度上的模型面片Mt上的點(diǎn)表示為。然后計(jì)算在Kinect深度相機(jī)視角下變形后模型的可見(jiàn)點(diǎn),找出最相似與深度面片的點(diǎn)的對(duì)應(yīng)關(guān)系:,其中有關(guān)系為代表點(diǎn)標(biāo)號(hào)的映射關(guān)系。基于對(duì)應(yīng)關(guān)系f,即通過(guò)最小化能量方法式,算出模型Ms上每個(gè)點(diǎn)的的變換矩陣Ti:
(6)
其中,T是一個(gè)4N×3的矩陣,它將Ti作為它的列;是qf(i)的卡笛爾坐標(biāo)系,Ni表示一個(gè)圓形鄰域連接的邊緣。定義一個(gè)不同的矩陣,其中G代表Ms上的邊的數(shù)目,L的每一行對(duì)應(yīng)Ms上的一條邊,L的每一列對(duì)應(yīng)Ms上的一個(gè)點(diǎn)。對(duì)于第r條邊,它的兩個(gè)頂點(diǎn)分別為pi和pj,因此,可以得到Lr,i=1和Lr,j=-1。式(6)也可重寫(xiě)成如下形式:
(7)
其中:
(8)
其中,I4是4×4的單位矩陣,表示克羅內(nèi)克積(Kronecker product)。通過(guò)迭代查找最相似對(duì)應(yīng)關(guān)系并通過(guò)交替方向法(alternate direction method)解式(7)直到收斂。我們?yōu)锳DM算法15外和25內(nèi)迭代。圖3表明了該動(dòng)作優(yōu)化方法的效果。優(yōu)化前的面片和真實(shí)動(dòng)作連續(xù)性并不是很強(qiáng),進(jìn)行算法的優(yōu)化后的結(jié)果和真實(shí)動(dòng)作看起來(lái)連續(xù)性強(qiáng),通過(guò)投影可以看出結(jié)果的不同。圖3中,(a)優(yōu)化前面片,(b)是優(yōu)化后的面片,優(yōu)化前后的結(jié)果多少有些不同;具體比對(duì)通過(guò)投影可以看出來(lái):(c)是優(yōu)化前的模型投影到RGB圖上的結(jié)果,可以看出來(lái)并不能完全重合,(d)是優(yōu)化后的投影結(jié)果,相對(duì)于優(yōu)化前,有明顯的改善,與RGB圖更加重合,運(yùn)動(dòng)捕捉的結(jié)果相對(duì)于優(yōu)化前精確度上也有了比較明顯的改善。
4 實(shí)驗(yàn)結(jié)果
為了說(shuō)明實(shí)驗(yàn)結(jié)果,本文通過(guò)驅(qū)動(dòng)一個(gè)人物靜態(tài)模型模板進(jìn)行變形得到與實(shí)際動(dòng)作相對(duì)應(yīng)的三維模型。通過(guò)與當(dāng)時(shí)模型的RGB信息的對(duì)比,投影操作,驗(yàn)證了所重建出的模型的準(zhǔn)確性。如圖4所示,圖中給出了通過(guò)一個(gè)靜態(tài)模型生成其它對(duì)應(yīng)動(dòng)作的模型信息,同時(shí)也增加了對(duì)應(yīng)時(shí)刻Kinect所采集RGB信息。
5 結(jié)論
動(dòng)態(tài)運(yùn)動(dòng)模型的空時(shí)稀疏采樣實(shí)現(xiàn)了魯棒真實(shí)感動(dòng)畫(huà)。給出最優(yōu)的視角、運(yùn)動(dòng)聯(lián)合采樣數(shù)目和密度,利用壓縮感知方法給出視角和運(yùn)動(dòng)的最佳搭配方案。自適應(yīng)多優(yōu)先級(jí)運(yùn)動(dòng)估計(jì)與保體積真實(shí)感變形實(shí)現(xiàn)精確真實(shí)感動(dòng)畫(huà)。根據(jù)骨架拓?fù)浣Y(jié)構(gòu)變化規(guī)律設(shè)計(jì)自適應(yīng)的多優(yōu)先級(jí)運(yùn)動(dòng)估計(jì)方法,刻畫(huà)了表面的幾何流特征,給出表面和變形體的隱性表達(dá),進(jìn)而實(shí)現(xiàn)高真實(shí)感的實(shí)時(shí)表面變形。
參考文獻(xiàn):
[1] Cheung K M, Kanade T, Bouguet J Y, et al. A real time system for robust 3-D voxel reconstruction of human motions. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Hilton Head, SC, USA, 2000. 714–720.
[2] Grau O, Pullen T, Thomas G. A combined studio production system for 3-D capturing of live action and immersive actor feedback. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(3):370–380.
[3] Hasenfratz J M, Lapierre M, Sillion F. A real-time system for full body interaction with virtual worlds. Proceedings of Eurographics Symposium on Virtual Environments, Grenoble, France, 2004. 147–156.
[4] Matsuyama T, Wu X, Takai T, et al. Real-time 3-D shape reconstruction, dynamic 3-D mesh deformation and high fidelity visualization for 3-D video. Computer Vision and Image Understanding, 2004, 96(3):393–434.
[5] Zitnick C, Kang S B, Uyttendaele M, et al. High-quality video view interpolation using a layered representation. ACM Transactions on Graphics, 2004, 23(3):600–608.
[6] Zhang L, Curless B, and Seitz S. M. Rapid shape acquisition using color structured light and multi-pass dynamic programming. Proceedings of the 1st International Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT), Padova, Italy, June 19-21, 2002. 24-36.
[7] Kolb A, Barth E, and Koch R. ToF-sensors: New dimensions for realism and interactivity. Proceedings of IEEE Conference on Computer Vision & Pattern Recognition, Workshop on ToF-Camera based Computer Vision, 2008.
[8] Microsoft Corp. Redmond WA. Kinect for Xbox 360.
[9] Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]//Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011: 127-136.
[10] Buss S R. Introduction to inverse kinematics with jacobian transpose, pseudoinverse and damped least squares methods[J]. IEEE Journal of Robotics and Automation, 2004, 17(1-19): 16.
[11] Kavan L, Collins S, ?ára J, et al. Skinning with dual quaternions[C]//Proceedings of the 2007 symposium on Interactive 3D graphics and games. ACM, 2007: 39-46.
[12] Vaillant R, Barthe, Lo&#, Guennebaud, Ga&#, et al. Implicit Skinning: Real-Time Skin Deformation with Contact Modeling[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[13] Yang J, Li K, Li K, et al. Sparse Non‐rigid Registration of 3D Shapes[C]// Computer Graphics Forum. 2015:89-99.
本文來(lái)源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第8期第35頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評(píng)論