基于凌陽(yáng)單片機(jī)的通用型語(yǔ)音控制系統(tǒng)
2 語(yǔ)音播放模塊設(shè)計(jì)
語(yǔ)音處理大致可以分為A/D、編碼處理、存儲(chǔ)、解碼處理以及D/A等。然而,麥克風(fēng)輸入所生成的WAVE文件,其占用的存儲(chǔ)空間很大,對(duì)于單片機(jī)來說想要存儲(chǔ)大量的信息顯然是不可能的,而凌陽(yáng)SPCE061A提出了解決的方法,即SACM-LIB,該庫(kù)可將A/D、編碼、解碼、存儲(chǔ)及D/A做成相應(yīng)的模塊,對(duì)應(yīng)的每個(gè)模塊都有其應(yīng)用程序接口API,所以只需了解每個(gè)模塊所要實(shí)現(xiàn)的功能及其參數(shù)的內(nèi)容,然后調(diào)用該API函數(shù)即可實(shí)現(xiàn)該功能。
3 語(yǔ)音識(shí)別模塊設(shè)計(jì)
3.1 語(yǔ)音識(shí)別原理
語(yǔ)音識(shí)別系統(tǒng)包括學(xué)習(xí)訓(xùn)練過程和識(shí)別過程2大部分,基本原理如圖3所示。本文引用地址:http://cafeforensic.com/article/172990.htm
(1)預(yù)處理。包括預(yù)加重、加窗分幀、端點(diǎn)檢測(cè)等處理過程,在預(yù)處理之前還有語(yǔ)音信號(hào)的數(shù)字化處理過程。其中,包括反混疊濾波、模/數(shù)轉(zhuǎn)換自動(dòng)增益等用以去除聲門激勵(lì)、口鼻輻射、高于1/2采樣率的高頻信號(hào)和噪聲信號(hào)的影響,以實(shí)現(xiàn)語(yǔ)音信號(hào)的數(shù)字化。
(2)聲學(xué)特征分析提取。經(jīng)過預(yù)處理后的語(yǔ)音信號(hào),要對(duì)其進(jìn)行特征提取,即特征參數(shù)分析。該過程就是從原始語(yǔ)音信號(hào)中抽取能夠反映語(yǔ)音本質(zhì)的特征參數(shù),以形成特征矢量序列。目前語(yǔ)音識(shí)別所用的特征參數(shù)主要有2種類型:線性預(yù)測(cè)倒譜系數(shù)(LPCC)和美爾頻標(biāo)倒譜系數(shù)(MFCC)。LPCC系數(shù)主要是模擬人的發(fā)聲模型,未考慮人耳的聽覺特性。MFCC系數(shù)考慮到了人的聽覺特性,但要計(jì)算傅里葉變換將耗費(fèi)大量寶貴的計(jì)算資源。因此,在嵌入式語(yǔ)音識(shí)別系統(tǒng)中一般都選用LPCC系數(shù)。語(yǔ)音特征提取是分幀提取的,每幀特征參數(shù)一般構(gòu)成一個(gè)矢量。為此,有必要采用很有效的數(shù)據(jù)壓縮技術(shù)方法對(duì)數(shù)據(jù)進(jìn)行壓縮。
(3)參考模板。參考模版時(shí)將一個(gè)或多個(gè)說話者多次重復(fù)的語(yǔ)音參數(shù)經(jīng)過訓(xùn)練得到,它是聲學(xué)參數(shù)模版,在系統(tǒng)識(shí)別使用前獲得并存儲(chǔ)起來。
(4)判定識(shí)別。模式識(shí)別是將輸入的待識(shí)別語(yǔ)音特征參數(shù)與訓(xùn)練得到的參考語(yǔ)音模式進(jìn)行逐一比較分析,獲得的最佳匹配參考模式便為識(shí)別結(jié)果。目前常用的語(yǔ)音識(shí)別算法主要有動(dòng)態(tài)時(shí)間規(guī)則、離散隱馬爾可夫模型、連續(xù)隱馬爾可夫模型及人工神經(jīng)網(wǎng)。
3.2 語(yǔ)音識(shí)別系統(tǒng)原理和算法
在SPCE061A內(nèi)置的8通道10位模/數(shù)轉(zhuǎn)換器(analog to digital converter,ADC)中專門設(shè)置了一個(gè)只用于語(yǔ)音輸入的通道MIC_IN,針對(duì)較弱信號(hào)的轉(zhuǎn)換還設(shè)計(jì)了一個(gè)音頻放大器(automation gain control,AGC)。對(duì)其自動(dòng)增益控制放大后再進(jìn)行A/D轉(zhuǎn)換。實(shí)際上,可以把模/數(shù)轉(zhuǎn)換器看作是一個(gè)實(shí)現(xiàn)模/數(shù)信號(hào)轉(zhuǎn)換的編碼器。ADC轉(zhuǎn)換的原理是依次把設(shè)定在逐次逼近寄存器SAR中的數(shù)字送至10位DAC0中進(jìn)行D/
A轉(zhuǎn)換。DAC0的電壓模擬量輸出值與外部的電壓模擬量輸入值進(jìn)行比較,以便盡快找出外部電壓模擬量的數(shù)字量輸出,其輸出的模擬量VDAC0與采樣后的輸入電壓值VIN相比較時(shí)可采用對(duì)半搜索法,即從SAR中最高有效位開始,根據(jù)比較的大小逐位確定其數(shù)碼取“1”,其余位為“ 0”。語(yǔ)音識(shí)別算法的原理是:在訓(xùn)練過程中,從每個(gè)說話人發(fā)出的訓(xùn)練語(yǔ)句中提取相應(yīng)的能充分描述各個(gè)說話人行為的特征矢量,這些特征矢量稱為各說話人的模板。在測(cè)試階段,從說話人發(fā)出的語(yǔ)音信號(hào)中按同樣的處理方法提取測(cè)試模板,并與相應(yīng)的參考模板相比較。由于說話人每次發(fā)音是變化的,測(cè)試模板和參考模板在時(shí)間尺度上不可能完全一致。為了使二者能在時(shí)間等效點(diǎn)上加以比較,采用了動(dòng)態(tài)時(shí)間規(guī)整
法(DTW)?;驹硎窃趨⒖紭颖咎卣魇噶啃蛄蠥=[a1,a2,…,aM]與待識(shí)語(yǔ)音特征矢量序列B=[b1,b2,…,bN]之間用一種非線性規(guī)整技術(shù)實(shí)現(xiàn)匹配。從目前來看,基于動(dòng)態(tài)時(shí)間規(guī)整匹配的DTW算法可能是一個(gè)最為小巧的語(yǔ)音識(shí)別算法,系統(tǒng)開銷小,識(shí)別速度快,在小詞匯量的語(yǔ)音命令控制系統(tǒng)中是一個(gè)非常有效的算法。在訓(xùn)練階段,用戶將詞匯表中的詞依次說一遍,提取出每一幀采樣數(shù)據(jù)的特征向量,并將特征向量作為模板存入模板庫(kù)中。在識(shí)別階段,提取待識(shí)語(yǔ)音的特征向量,然后將其依次與模板庫(kù)中的每一個(gè)模板進(jìn)行相似度比較,并將相似度最高者作為結(jié)果輸出。
評(píng)論