基于聽覺特性的聲紋識別系統(tǒng)的研究
在本文的實驗系統(tǒng)中,語音特征參數(shù)依次使用了12階LPCC以及12階MFCC。最后選定12階MFCC參數(shù)。本課題建立的是與文本有關的聲紋身份確認系統(tǒng),用于測試模型是連續(xù)CHMM模型。
實驗中我們用的是30 ms的漢明窗,依次計算它的特征參數(shù),分別使用了12階LPCC和12階MFCC(24個Mel濾波器,語音信號的幀長度為256,信號的采樣頻率為8 000 Hz)和由此推導出的一階MFCC差分參數(shù)。LPCC特征和MFCC特征識別率比較如表4所示。
表4顯示了在測試人數(shù)為10人時,在相同的幀長下,MFCC特征的識別性能高于LPCC特征。這個結論又一次證明了倒譜特征的可區(qū)分性測度優(yōu)于LPCC特征。
實驗中,我們把第一個說話人的語音“9”,作為實驗研究樣本。圖2是數(shù)字“9”的語音波形圖,圖3是數(shù)字“9”的語譜圖。
MFCC參數(shù)是按幀計算的,在這里語音幀長度是256,信號采樣頻率是8 kHz,采用24個濾波器,MFCC特征階數(shù)是12。MFCC的優(yōu)點是在噪聲的環(huán)境下,可以表現(xiàn)出對環(huán)境更強的魯棒性。接下來一步要做的是對語音特征矢量序列進行矢量量化,矢量量化的數(shù)據(jù)壓縮效果相當好,因此進行語音處理經(jīng)常要用到。在本文的實驗中,采用LBG法聚類生成碼書。矢量量化之后這些語音特征參數(shù)就轉變成語音模型。緊接著可以開始進行下一步的操作。
在訓練階段,對數(shù)字1~9建立HMM模型,就要對10個人進行每個數(shù)字10遍訓練。第一天訓練,第二天檢測。每天一遍,一共兩遍,首先把語音信號做端點檢測,然后根據(jù)特征量計算出MFCC系數(shù)序列后,這里要用Baum-Welch算法建立各個說話人的HMM模型庫。測試階段,先保持和訓練階段一樣,提取說話人測試語音中的特征矢量,然后根據(jù)維特比算法,并以各個說話人的HMM模板為參照,計算出來該輸入序列的生成概率,根據(jù)最大的輸出概率進行判決結果。對于本課題研究的身份確認系統(tǒng),把概率值與判決門限相比較,其值大于或等于判決門限的聲音作為受測者本人的聲音被接受,小于門限的被拒絕。
2.2 實驗結果分析
本文的實驗是與文本有關的說話人身份確認系統(tǒng)。在實驗中,分別按照不同人數(shù)進行訓練,但是測試語音數(shù)保持不變。任意抽3個人朗讀數(shù)字,在隨后的實驗中我們依次確定實驗人數(shù)為5,7和10時,這時可以看出識別率會有一些大的差異。其結果如表5所示。
實驗中的語音特征是MFCC,所用模型是連續(xù)CHMM,每一數(shù)字模型有4個狀態(tài)。在這個身份確認系統(tǒng)中,在二值判定的前提下,確認受測者是否是之前所認定的某人。從表5可以看到識別的時間比較短,當有10個人訓練時,識別率最大。為了訓練出可靠的參數(shù)模型,必須加大訓練集的數(shù)據(jù)。本實驗由于條件限制,實驗語音模板庫比較小,訓練數(shù)據(jù)不太充足,影響系統(tǒng)的一定性能。當訓練數(shù)據(jù)足夠大時,得修改補充一下程序的流程。本實驗中系統(tǒng)的識別率達到了90%以上。
3 結論
本文的實驗達到了預期的實驗效果,基本完成了身份確認的目標。但是針對語音的特征提取和模式匹配,在實驗中難免會出現(xiàn)一些誤差,出現(xiàn)誤認識和拒認識的偏差。對于說話人確認系統(tǒng),雖然說從理論上來說,識別率和登錄的說話者量無關,但是實際上對于二值判定的說話人確認系統(tǒng)也會隨著登錄人數(shù)的增減而有所改變,怎么樣才能確保有足夠多的登錄者,登錄到說話人確認系統(tǒng)中,而它的識別率問題仍然是一個很大的課題。
評論