基于聽覺特性的聲紋識別系統(tǒng)的研究
聲紋識別技術(shù)(說話人識別技術(shù))是一種生物認(rèn)證技術(shù),也是一項(xiàng)根據(jù)說話人波形反映其生理和行為特征的語音參數(shù)來自動識別測試的說話人身份的技術(shù)。
本文引用地址:http://cafeforensic.com/article/201609/303780.htm在未來的生活中,說話人識別將會以它自身獨(dú)特的便捷性,實(shí)惠性和精準(zhǔn)性受人矚目,并且逐漸普及在生物認(rèn)證技術(shù)領(lǐng)域。
說話人識別首要錄制聲音樣本和提取語音特征參數(shù),再把它們保存在數(shù)據(jù)庫中,最后把準(zhǔn)備驗(yàn)證的聲音和數(shù)據(jù)庫中的語音特征相匹配,利用匹配結(jié)果相似度來獲得說話人的身份。
1 常用語音庫
目前,世界各國都很重視建設(shè)語音數(shù)據(jù)庫。最具代表的是美國建立的LDC(Linguistic Data Consortium)和OGI(Oregon Graduate Inst itute),以及歐洲國家建立的ELRA(European Language Resollces Association)組織。這些組織都是長期研究語音信號處理技術(shù)的。他們開發(fā)出規(guī)模巨大的語音研究資源。
第一個高質(zhì)、大容量、高可信度的聲音數(shù)據(jù)庫是YOHO數(shù)據(jù)庫。表1是YOHO說話人數(shù)據(jù)庫。它是經(jīng)過數(shù)字化的數(shù)據(jù)庫,其輸入特征參照了第三代安全終端單位(STU—III)的安全語音電話。設(shè)計(jì)了與文本有關(guān)的說話人確認(rèn)系統(tǒng),此系統(tǒng)是會提示用戶說什么話,在YOHO中使用的是:“合成塊”短語的語法。
這個數(shù)據(jù)庫的環(huán)境是“辦公環(huán)境”。另一方面,它還滿足在噪聲的環(huán)境和遠(yuǎn)距離麥克風(fēng)的條件下對語音做測試。而這些均滿足了消費(fèi)者的消費(fèi)需要。
國內(nèi),浙江大學(xué)CCNT實(shí)驗(yàn)室提出和建立了面向移動通信環(huán)境的說話人識別語音庫SRMC(speaker recognition in mobile communicatio n)。
生活中,如果要采集語音的話,就會常常使用計(jì)算機(jī),麥克風(fēng),還有錄音功能電話機(jī),此外還要有相應(yīng)的調(diào)制解調(diào)器。這些錄音設(shè)備都很普通且常見。
我們該怎樣去評價和使用一個標(biāo)準(zhǔn)的語音數(shù)據(jù)庫?我們需要對評價下個定義。如評價的細(xì)節(jié)、訓(xùn)練和測試數(shù)據(jù)集的分割。在特定條件(如訓(xùn)練和測試采用不同的麥克風(fēng))下進(jìn)行系統(tǒng)性能評價,需要有足夠的錄音數(shù)據(jù)。
2 聲紋識別系統(tǒng)
2.1 實(shí)驗(yàn)設(shè)計(jì)
由于實(shí)驗(yàn)條件的限制,本課題的語音庫是自己創(chuàng)建的,實(shí)驗(yàn)用來訓(xùn)練和測試的說話人錄音,大部分是班級同學(xué)和同一實(shí)驗(yàn)室的同學(xué)。在這個實(shí)驗(yàn)中我們使用的是普通話,我們中每一個人說話速度和音量都處于正常情況。實(shí)驗(yàn)語音是在兩天時間內(nèi)采集得到的。采集環(huán)境是實(shí)驗(yàn)室,一共有十個同學(xué)進(jìn)行錄音。男女比例是一比一。在本實(shí)驗(yàn)中,我們盡量保持實(shí)驗(yàn)室環(huán)境安靜,假設(shè)我們采集的聲音都是純音,沒有噪音。實(shí)驗(yàn)中用到的錄音軟件是cool edit 2000,用的錄音設(shè)備是普通的立體聲麥克風(fēng)和COMPAQ筆記本電腦,我們把采樣頻率定為8000Hz,每一幀的幀長定為256個點(diǎn),幀之間的距離定為80點(diǎn),用16比特量化方式進(jìn)行量化。采樣之后,得到了標(biāo)準(zhǔn)化的數(shù)字語音,這個實(shí)驗(yàn)中,用到的語料是阿拉伯?dāng)?shù)字。包含之間的數(shù)字,每個人的語音是1個阿拉伯?dāng)?shù)字,每個人每一天要有9次朗讀機(jī)會。我們把獲得的所有的數(shù)據(jù)樣本存儲在計(jì)算機(jī)的硬盤中,拿出第一天的語音來進(jìn)行訓(xùn)練使用,把第二天的語音用來做測試。每一個數(shù)字錄音看做一個單位來進(jìn)行測試。本文的實(shí)驗(yàn)中利用阿拉伯?dāng)?shù)字1~9的語音單元構(gòu)成的隱馬爾可夫模型。建市了與文本有關(guān)的身份確認(rèn)系統(tǒng)。如圖1所示。
首先錄制語音,采集語音,建立語音模板庫,在實(shí)驗(yàn)室環(huán)境下,采集參加訓(xùn)練和識別的說話人語音。分別建立兩個數(shù)據(jù)庫。第一天錄音存儲為Xi,第二天錄音存儲為Ri。分別存儲在計(jì)算機(jī)的硬盤中的錄音DIY資料文件夾下。語音庫是用來存儲說話人的語音。當(dāng)需要識別時可以用來識別說話人身份。隨后將語音送至預(yù)處理功能模塊。
其次對數(shù)字化語音進(jìn)行預(yù)處理,此模塊的任務(wù)語音信號的數(shù)字化處理,把處理過的語音拿來端點(diǎn)檢測。預(yù)處理過程包含去除語音信號的噪聲、對信號進(jìn)行預(yù)加重、加窗、分幀等。經(jīng)過加窗這一步驟之后,得到了一幀幀的語音序列,然后進(jìn)行預(yù)加重處理。把信號做預(yù)加重處理是為了把信號中的高頻部分提取出來,這樣做整個頻譜就會變得平坦起來,然后在全部的頻帶中一直保持這種平坦,這個時候我們可以用相同的信噪比求得頻譜。這樣都完成之后就可以頻譜分析了。預(yù)加重濾波器的形式如:
H(z)=1-μz-1 (1)
式(1)中,μ的值在本實(shí)驗(yàn)中選取0.937 5。引進(jìn)了預(yù)加重參數(shù)μ,可以看出,有利于提高說話人的識別率。表2中可以看到不同預(yù)加重參數(shù)下的識別率。
由表2可知,μ值改變,識別率也在改變。μ=0.95時,識別率最高。本實(shí)驗(yàn)選取的預(yù)加重參數(shù)值在0.93~0.95之間。
接下來是對語音信號分幀加窗。因?yàn)檎Z音信號不是平穩(wěn)的信號,假定語音信號在10~30 ms之間是平穩(wěn)的。為了得到短時的語音信號,對語音信號進(jìn)行加窗計(jì)算。本課題主要選用的是漢明窗。漢明窗顯示了一個好的窗口的優(yōu)點(diǎn)。其在時域中波形細(xì)節(jié)不容易丟失,且能防止泄露。漢明窗函數(shù)式:
經(jīng)過前面的一些處理之后,采集的語音信號就被分割成一幀幀的短時的加窗信號,把這些信號假設(shè)成隨機(jī)平穩(wěn)的信號,然后提取語音特征參數(shù)。
提取出來的語音參數(shù),對其端點(diǎn)檢測。此時,先設(shè)置門限,依據(jù)短時能量和過零率的公式,求出來短時能量值和過零率值。然后用手工方法在MATLAB上去除語音信號中的靜音段和噪音語段來進(jìn)行端點(diǎn)檢測。
對系統(tǒng)的輸入信號進(jìn)行判斷,準(zhǔn)確地找到語音信號的起始點(diǎn)和終止點(diǎn)的位置。除去語音中的雜亂語音段,只有這樣才能采集到真正的語音數(shù)據(jù),減少數(shù)據(jù)冗余和運(yùn)算量,并減少處理時間。如表3所示。在這里本課題用的是雙門限法。將短時平均能量和短時平均過零率結(jié)合起來,進(jìn)行端點(diǎn)檢測,可以很好的檢測語音是否開始和結(jié)束。
評論