色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 基于DSP嵌入式說話人識別系統(tǒng)的設(shè)計

          基于DSP嵌入式說話人識別系統(tǒng)的設(shè)計

          作者: 時間:2012-03-21 來源:網(wǎng)絡(luò) 收藏

          本文引用地址:http://cafeforensic.com/article/257627.htm

          2.1 語音信號的端點檢測

          語音信號的端點檢測目的是去除語音信號中的噪聲段。端點檢測從很大程度上影響到識別率。常用方法有短時能量法,短時過零率法和雙門限法等。本系統(tǒng)選用雙門限法,實驗表明,效果優(yōu)于前兩種方法。在雙門限方法端點檢測中,閾值的選擇尤為關(guān)鍵,該系統(tǒng)的語音采樣頻率設(shè)為8 kHz,語音分幀為每幀80個點。經(jīng)過多次實驗,這里短時能量低閾值通過式(3)的動態(tài)方式得到,高閾值設(shè)為低閾值的5倍。而過零率的閾值選取應(yīng)充分考慮到噪聲的影響,通過大量實驗發(fā)現(xiàn)系統(tǒng)中噪聲的過零率一般不超過5,所以對過零率的閾值選取為25,取得了很好的效果,準確率達到95%以上。

          ITU=0.03(amp_max-amp_min)+amp_min (3)

          在端點檢測過程中有時會遇到突發(fā)性的干擾噪聲,這種噪聲持續(xù)時間很短,一般小于5 ms。為了消除這種干擾,這里用檢測后的起止長度判斷它是不是語音。如果所檢測到的語音長度足夠的短,則可以把它當(dāng)成是噪聲。

          2.2 特征參數(shù)的提取

          語音信號的特征提取是說話人身份識別的難點。能否用相對簡單的方法提取出一種最能體現(xiàn)說話人個性信息的特征將成為以后研究的方向。該系統(tǒng)中用的是能體現(xiàn)人耳聽覺特性的Mel倒譜系數(shù)(MFCC)。

          MFCC著眼于人耳的聽覺機理,依據(jù)聽覺的結(jié)果來分析語音的頻譜,獲得了很好的識別率和很好的噪聲魯棒性,它利用了聽覺系統(tǒng)的臨界效應(yīng),描述人耳對感知的非線性特性。在硬件資源配置中,MFCC在識別性能和內(nèi)部空間占用方面也取得了很好的平衡。在該系統(tǒng)中使用16個濾波器(M=16)構(gòu)成的濾波器組。圖4所示是MFCC的提取過程。

          2.3 識別方法選擇與實現(xiàn)

          基于該系統(tǒng)對速度、識別效率、存儲空間的要求,這里的識別方法選為高斯混合模型。高斯混合模型(GMM)可以看成是狀態(tài)數(shù)為1的連續(xù)分布隱馬可夫模型CDHMM。一個M階混合高斯模型的概率密度函數(shù)是由M個高斯概率密度函數(shù)加權(quán)求和得到,所示如下:



          式中:X是一個D維隨機向量;bi(Xi)是子分布,i=1,2,…,M是子分布;ωi是混合權(quán)重,i=1,2,…,M。對GMM模型參數(shù)的估計方法該系統(tǒng)采用最大似然估計。對于一組長度為T的訓(xùn)練矢量序列X={X1,X2,…,XT},GMM的似然度可表示為:



          由于式(5)是參數(shù)λ的非線性函數(shù),很難直接求出其最大值。因此,該系統(tǒng)采用EM算法估計參數(shù)λ。

          linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


          關(guān)鍵詞: DSP 嵌入式 識別系統(tǒng)

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉