基于中英文數(shù)字語音登陸系統(tǒng)的仿真研究
摘要:為了方便學(xué)生使用中文或英文說出學(xué)號與名字登錄注冊系統(tǒng),設(shè)計了中英文數(shù)字語音登錄系統(tǒng)。采用MFCC(Mel頻率倒譜系數(shù))作為語音特征參數(shù),在隱馬爾可夫模型HMM(Hidden Markov Model)框架下建立了基于語音識別開發(fā)工具包HTK的中英文連續(xù)數(shù)字語音識別系統(tǒng),包括對語音信號的預(yù)處理、特征參數(shù)的提取,識別模版的訓(xùn)練,最后送到識別器進行識別。通過建立中文、英文和中英文混合訓(xùn)練集和測試集聲學(xué)模型,并得到了較高的識別率,從而加強多媒體注冊系統(tǒng)的穩(wěn)定性和魯棒性。
本文引用地址:http://cafeforensic.com/article/134004.htm引言
語言是人與人之間在日常交往中最直接也是最強大的工具,然而我們并不滿足于人與人之間的對話,而是通過語音識別技術(shù)來實現(xiàn)人機對話,語音識別技術(shù)的終極目標(biāo)就是能夠讓人類與計算機進行自由地交談。隨著語音識別技術(shù)的逐漸成熟及近些年來已經(jīng)取得的進步,英文數(shù)字語音識別在其發(fā)展的20多年間已達到了很高的識別率,漢語數(shù)字語音識別也經(jīng)過多年研究在PC平臺和實驗室條件下達到了高性能,但中英文混合連續(xù)數(shù)字語音識別還有待進一步研究,張晴晴等人研究的中英雙語混合語音識別的識別率為16.8%,遠低于理想中的識別率。為使識別效果達到可實用的水平,本系統(tǒng)首先從基本的中英文數(shù)字語音識別出發(fā),從而為相應(yīng)的登錄注冊系統(tǒng)做出一些嘗試。
本文研究的中英文連續(xù)數(shù)字語音識別,包含中文0-10和英文zero-ten的數(shù)字語音識別,其中包括對語音信號的預(yù)處理、特征參數(shù)提取、中英文聲學(xué)模型與語言模型的訓(xùn)練及模版匹配等,適合于研究數(shù)字語音登錄系統(tǒng),比如用戶用中英文任何語言念學(xué)號或是身份證號就能登陸,免去書寫的麻煩,同時也對后續(xù)研究中英文混合連續(xù)語音識別奠定了基礎(chǔ)。
語音識別原理
根據(jù)對說話人說話方式的要求,語音識別可以分為孤立字(詞)語音識別系統(tǒng),連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,語音識別可以分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量大小,又可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量的語音識別系統(tǒng)。不同的語音識別系統(tǒng),其目的和功能各不相同,但它們所采用的基本框架大體一致,語音識別基本流程如圖1。
語音識別的過程,其本質(zhì)就是模式匹配的過程。語音信號經(jīng)過預(yù)處理、語音信號的特征提取、聲學(xué)模型的訓(xùn)練與模式匹配后,經(jīng)過處理輸出識別結(jié)果。其中:
1)預(yù)處理是對輸入的原始語音信號進行處理,濾除掉其中不重要的信息和背景噪聲,并進行語音信號的端點檢測、語音分幀以及預(yù)加重等處理。
2)特征提取主要負責(zé)計算語音的聲學(xué)參數(shù),并進行特征的計算,以便提取出反映信號特征的關(guān)鍵特征參數(shù),從而用于后續(xù)處理。因Mel頻率倒譜系數(shù)(MFCC)具有良好的抗噪性和魯棒性,故本文采用MFCC提取特征參數(shù)。
3)訓(xùn)練階段是用戶通過輸入若干次訓(xùn)練語音后,經(jīng)預(yù)處理和特征提取后得到特征矢量參數(shù),建立或修改訓(xùn)練語音的參考模式庫。
評論