色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<u id="mmwdi"><option id="mmwdi"></option></u>

<span id="mmwdi"><option id="mmwdi"><output id="mmwdi"></output></option></span>

新聞中心

EEPW首頁 > 醫(yī)療電子 > 設(shè)計應(yīng)用 > 基于PCANN的說話人識別方法研究

基于PCANN的說話人識別方法研究

作者：時間：2012-06-01 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

1引言

本文引用地址：http://cafeforensic.com/article/198973.htm

說話人識別是根據(jù)從說話人所發(fā)語音中提取信息判斷說話人身份的過程。語音信號中包含了話音特征和說話人個性特征，說話人識別的關(guān)鍵問題之一是提取反映說話人個性的語音特征參數(shù)。在說話人識別系統(tǒng)中常用的語音特征參數(shù)主要有，LPC 倒譜系數(shù)(LPCC) 、Mel 頻率倒譜系數(shù)（MFCC）、線譜對（LSP）等。在純凈語音環(huán)境中，系統(tǒng)已經(jīng)達到很好的識別性能，但是在實際應(yīng)用的環(huán)境中，由于背景噪聲的存在，系統(tǒng)往往達不到令人滿意的效果。

主分量分析PCA (primary component analyze)是統(tǒng)計學(xué)中一種根據(jù)數(shù)據(jù)的統(tǒng)計分布特性,提取數(shù)據(jù)主要成分的數(shù)據(jù)處理方法. 它是最小均方誤差下的最優(yōu)正交變換，對消除模式間的相關(guān)性、突出模式間差異性有最佳的效果，所以常被用于數(shù)據(jù)的壓縮和模式識別的特征提取 . 由于它需要對原始數(shù)據(jù)的方差矩陣進行估值并求取其特征值和特征向量, 計算量異常巨大, 而基于神經(jīng)網(wǎng)絡(luò)的主分量分析算法不必進行矩陣求逆運算，并且神經(jīng)網(wǎng)絡(luò)具有并行運算能力, 這將降低PCA 計算量, 提高PCA 的實用性。對語音信號的原始特征作主分量分析后往往能得到更好的特征參數(shù) 。本文選用LPC倒譜系數(shù)作為表征聲道的特征參數(shù)，采用相繼的幾幀組成的特征參數(shù)矢量作為樣本，對其進行主分量分析，這樣去除了特征中的冗余信息，壓縮特征參數(shù)的維數(shù)，得到新的PCA特征參數(shù)，然后把PCA特征參數(shù)作為GMM模型的輸入向量，進行說話人識別的訓(xùn)練和識別。

本文第二節(jié)介紹主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法，第三節(jié)介紹高斯混和模型和LPCC特征參數(shù)，第四節(jié)給出相應(yīng)的說話人識別系統(tǒng)實驗和結(jié)果，最后是簡要的討論與展望。

2主分量神經(jīng)網(wǎng)絡(luò)(PCANN)

主分量神經(jīng)網(wǎng)絡(luò)是基于Hebb 學(xué)習(xí)規(guī)則的線性無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò), 它可以通過對權(quán)矩陣W 的學(xué)習(xí), 使W接近于原始數(shù)據(jù)X的關(guān)聯(lián)矩陣C中特征值所對應(yīng)的特征向量, 而不必進行矩陣求逆運算,提高了運算速度。
2.1 基于Hebb學(xué)習(xí)的最大特征濾波器

2.2 基于Hebb 學(xué)習(xí)的主分量分析網(wǎng)絡(luò)

圖3：提取前m個主分量的神經(jīng)網(wǎng)絡(luò)解析圖

3識別系統(tǒng)特征參數(shù)以及模型

3.1 語音的主分量特征參數(shù)（PCA特征）
本文選用線性預(yù)測倒譜系數(shù)（LPCC）作為語音的原始特征參數(shù)然后對其進行主分量分析。LPCC系數(shù)是一種非常重要的特征參數(shù)。它的主要優(yōu)點是比較徹底地去掉了語音產(chǎn)生過程中的激勵信息，主要反映聲道相應(yīng)，而且往往只要十幾個倒譜系數(shù)就能較好地描述語音信號的共振峰特性，因此在識別中取得了較好的效果。在實際計算中，LPCC參數(shù)不是由信號直接得到的，而是由LPC系數(shù)得到的。關(guān)系式如下：

（8）
這里實際上是直流分量,反映頻譜能量,其值的大小不影響譜形,在識別中通常不用,也不去計算。當(dāng)LPCC系數(shù)個數(shù)不大于LPC系數(shù)個數(shù)時用第二式,當(dāng)LPCC系數(shù)個數(shù)大于LPC系數(shù)個數(shù)時,用第三式進行計算。

4實驗及結(jié)果分析
本文實現(xiàn)了一個在噪聲環(huán)境下與文本無關(guān)的說話人自動識別系統(tǒng)。使用的是一個含20人的語音數(shù)據(jù)庫，包括10名男性和10名女性，每人語音長度約90秒。采樣率為12kHz，采用16bit量化。

首先對數(shù)據(jù)進行預(yù)處理，包括端點檢測、預(yù)加重(H(z)=1-0.95 )和加窗（Hamming窗，幀長20ms，幀移10ms）。原始特征選為12階的LPCC倒譜參數(shù)，主分量特征個數(shù)選12階。高斯模型混合數(shù)M=16。訓(xùn)練音長為40s，測試音為3s。實驗結(jié)果如表(1):

表1 實驗結(jié)果（％）

圖(4)是根據(jù)表(1)中的數(shù)據(jù)畫出的曲線。

從表(1)可以看出，與傳統(tǒng)的GMM方法相比，PCANN_GMM方法明顯增強系統(tǒng)抗噪聲能力，改進了識別效果。并且在PCANN_GMM中，幀數(shù)不同對識別也有較小的影響，當(dāng)幀數(shù)大于5幀時，系統(tǒng)的識別性能不再提高。

5總結(jié)

本文運用PCANN/GMM方法進行說話人識別，將多幀特征參數(shù)合并為一幀，利用了幀間相關(guān)性，對其進行主分量分析，減少了冗余度，提高了系統(tǒng)的魯棒性。另外，當(dāng)前的說話人識別研究還主要集中在聲學(xué)特征層次進行,基于人們說話中含有的高級特征所進行的研究雖然很多,下一步的工作將結(jié)合聲學(xué)特征和高級特征,研究它們之間的關(guān)系,從而進一步提高說話人識別系統(tǒng)的性能。

參考文獻

[1] 趙力. 語音信號處理北京：機械工業(yè)出版社,2003
[2] E.Oja. “A Simplified Neural Model as a Principal Components Analyzer”,Journal of Mathematic Biology,VOL.19,pp.267-273,1982
[3] Sanger T D. “Optimal Unsupervised Learing In a Singer Layer Linear Feedforward Neural Network”,Neural Networks, pp459-473, 1989
[4] 何振亞顧明亮語音信號的主分量特征應(yīng)用科學(xué)學(xué)報, VOL 17,NO.4,1999
[5] Simon Haykin. 神經(jīng)網(wǎng)絡(luò)原理. 北京：機械工業(yè)出版社, 2004
[6] Chanchal Chatterjee. and Vwani P.Roychowdhury. “On Relative Convergence Properties of Principal Component Analysis Algorithms”,IEEE Transactions On Neural Networks, VOL.9,NO.2,March 1998
[7] Oh-Wook Kwon. and Kwokleung Chan. “Speech Feather Analysis Using Variational Bayesian PCA”,IEEE Signal Processing Letters,VOL.10,NO.5,May 2003

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： PCANN 識別 方法研究

評論

相關(guān)推薦

匿名分析還待完善

嵌入式系統(tǒng) 圖像性別識別英特爾數(shù)字標(biāo)牌 | 2013-09-05

整流濾波電容的設(shè)計與選用方法研究

電源與新能源整流濾波電容方法研究 | 2018-09-07

人工智能用于識別野外的靈長類動物面孔

智能計算人工智能分析錄像識別跟蹤 | 2020-06-29

RFID 身份識別解決方案

資源下載周立功單片機 RFID 身份識別 | 2007-03-30

會識別按動時間、低功耗的電源輕觸開關(guān)電路

設(shè)計方案識別按動時間功耗電源輕觸開關(guān) | 2009-07-06

識別LED驅(qū)動電源好壞

光電顯示 LED 驅(qū)動電源識別 | 2018-08-10

如何編寫手寫輸入識別引擎?。?老站轉(zhuǎn))

amine | 2002-07-29

VC_基于BP網(wǎng)絡(luò)的含噪聲點陣數(shù)字的識別(源碼)

資源下載 VC BP網(wǎng)絡(luò) 噪聲點陣數(shù)字識別源碼 | 2007-04-19

多些知識少上當(dāng) 怎樣識別水貨三星手機

hpnet | 2003-02-19

串口速率，我拿什么識別你?

嵌入式系統(tǒng) UART 串口通信協(xié)議調(diào)度識別 | 2014-03-10

One UI 6.1 導(dǎo)致 Galaxy S23 系列手機指紋識別出問題

手機與無線通信 One UI 6.1 Galaxy S23 手機指紋識別 | 2024-04-08

蘋果布局醫(yī)療健康熱情不減，這一次瞄準(zhǔn)了抑郁癥識別

醫(yī)療電子蘋果抑郁癥識別 | 2021-09-22

NE555構(gòu)成的具有時間識別功能的門鎖報警器

設(shè)計方案 NE555 構(gòu)成具有時間識別功能門鎖報警器 | 2009-07-06

能識別偽碼的密碼鎖(CD4017、CD4093)

設(shè)計方案識別偽碼密碼鎖 CD4017 CD4093 | 2009-07-06

ARM Cortex-M3 微處理器測試方法研究與實現(xiàn)

嵌入式系統(tǒng) 方法研究實現(xiàn) 測試微處理器 Cortex-M3 ARM | 2013-07-12

招聘信息

jackwang | 2003-01-20

三軸加速度傳感器在智能車控制與道路識別中的應(yīng)用

工控自動化識別應(yīng)用道路控制傳感器智能加速度 | 2013-07-05

目標(biāo)跟蹤和識別解決方案

資源下載目標(biāo)跟蹤識別 | 2007-09-26

集創(chuàng)北方：指紋是熱門，觸控更寬廣

指紋識別觸控顯示 201604 | 2016-03-28

電話主叫號碼信息的識別及實現(xiàn)

資源下載電話主叫號碼信息識別實現(xiàn) | 2007-04-19

能識別來客和家人的門鈴(CD4069、KD9300)

設(shè)計方案識別來客人的門鈴 CD4069 KD9300 | 2009-07-06

招聘信息

jackwang | 2003-01-20

具有時間識別功能的門鎖報警器

設(shè)計方案具有時間識別功能門鎖報警器 | 2009-07-06

清華大學(xué)：非特定人連續(xù)數(shù)字識別方法與漢語語音數(shù)據(jù)庫的研究

資源下載非特定人連續(xù)數(shù)字識別漢語語音數(shù)據(jù)庫 | 2007-04-19

手寫漢字識別技術(shù)出臺國家標(biāo)準(zhǔn)

liujt_ic | 2003-03-28

焦點

推薦視頻

技術(shù)專區(qū)

<address id="efxdr"></address>

<u id="efxdr"></u>