色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 基于聯(lián)合損失函數(shù)的語音增強(qiáng)深度學(xué)習(xí)算法

          基于聯(lián)合損失函數(shù)的語音增強(qiáng)深度學(xué)習(xí)算法

          作者:楊玲玲(河南工業(yè)貿(mào)易職業(yè)學(xué)院信息工程學(xué)院,鄭州 450064) 時(shí)間:2023-07-06 來源:電子產(chǎn)品世界 收藏
          編者按:針對損失函數(shù)計(jì)算過程加入關(guān)于人耳聽覺數(shù)據(jù)的基礎(chǔ)上,設(shè)計(jì)了一種聯(lián)合損失函數(shù)的語音增強(qiáng)深度學(xué)習(xí)算法。研究結(jié)果表明:本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語音質(zhì)量的明顯優(yōu)化。加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。綜合運(yùn)用聯(lián)合損失函數(shù)并融合注意力機(jī)制后,可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強(qiáng)語音。利用注意力機(jī)制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強(qiáng)語音質(zhì)量的提升并達(dá)到更高的可懂度。

          DNN 根據(jù)獲取的語音特征對學(xué)習(xí)目標(biāo)參數(shù)進(jìn)行準(zhǔn)確估計(jì),目前已被廣泛應(yīng)用于的研究中[1-2]。各類聲學(xué)特征也對方面存在差異。根據(jù)傳統(tǒng)語音特征進(jìn)行分析并不能充分反饋語音內(nèi)部信息,也不能獲得音幀和幀快速轉(zhuǎn)換的結(jié)果,因此該模型并不能準(zhǔn)確預(yù)測時(shí)頻掩蔽結(jié)果,導(dǎo)致實(shí)際性能較差[3-4]。在背景噪聲濾除方面,時(shí)頻掩模值發(fā)揮著關(guān)鍵作用,以常規(guī)時(shí)頻掩模值進(jìn)行處理時(shí)并未針對語音相位進(jìn)行分析,語音相位譜則對改善語音可懂性具有關(guān)鍵作用[5]。

          本文引用地址:http://cafeforensic.com/article/202307/448398.htm

          根據(jù)上述研究結(jié)果,本文優(yōu)化了以語音增強(qiáng)實(shí)現(xiàn)的網(wǎng)絡(luò)模型與損失函數(shù)[6]。為確保代價(jià)函數(shù)能夠根據(jù)人耳感知特點(diǎn)開展分析過程,在上述基礎(chǔ)上設(shè)計(jì)了一種。針對損失函數(shù)計(jì)算過程加入關(guān)于人耳的數(shù)據(jù)。

          1

          進(jìn)行深度學(xué)習(xí)時(shí),需要利用均方誤差損失函數(shù)(MSE)對神經(jīng)網(wǎng)絡(luò)實(shí)施優(yōu)化處理,而MSE 只對增強(qiáng)語音與純凈語音誤差進(jìn)行簡單數(shù)據(jù)分析,并未考慮誤差正負(fù)因素的影響,也未加入人耳感知的信號。此時(shí)只以MSE 構(gòu)建損失函數(shù)不能確保增強(qiáng)語音達(dá)到理想的算法處理效果[7]。

          采用頻域加權(quán)分段的信噪分析方法可以對語音可懂度進(jìn)行預(yù)測。以下為頻域加權(quán)分段信噪比表達(dá)式:

          1688652699106392.png

          (1)

          式中,L 表示時(shí)頻信號幀數(shù),K 表示頻帶數(shù),x(I,k)是第 l 幀第 k 個(gè)頻帶中包含的純凈語音信號幅度,image.png屬于第 l 幀第 k 個(gè)頻帶包含噪聲語音的幅度譜,W(I,k)為作用于各時(shí)頻單元幅度譜的感知權(quán)重系數(shù)。

          本文從語音信噪比特征出發(fā),對以上函數(shù)實(shí)施動態(tài)結(jié)合,由此得到聯(lián)合優(yōu)化代價(jià)函數(shù)。建立了動態(tài)系數(shù):

          a(I,k)=1688652836916519.png   (2)

          上述系數(shù)與時(shí)頻單元信噪比存在直接關(guān)聯(lián),SNR(l,k) 表示第l 幀第k 個(gè)頻帶對應(yīng)的信噪比數(shù)據(jù),同時(shí)根據(jù)各時(shí)頻單元信噪比獲得相應(yīng)的動態(tài)系數(shù),處于較高信噪比條件下時(shí),動態(tài)系數(shù)接近1。

          在聯(lián)合代價(jià)函數(shù)中融合了人耳心理聲學(xué)感知的內(nèi)容[8],以此訓(xùn)練網(wǎng)絡(luò)來實(shí)現(xiàn)性能優(yōu)化的目標(biāo),在確保提升話音質(zhì)量的前提下使增強(qiáng)話音具備更高可懂度。

          2 基于的語音增強(qiáng)算法

          以聯(lián)合損失函數(shù)建立語音增強(qiáng)算法經(jīng)多次重復(fù)訓(xùn)練后,能夠從含噪語音幅度譜內(nèi)獲得估計(jì)增強(qiáng)語音幅度譜。圖1給出了系統(tǒng)框圖。

          image.png

          圖1 基于聯(lián)合損失函數(shù)的語音增強(qiáng)算法系統(tǒng)框圖

          時(shí)頻掩蔽因素是對神經(jīng)網(wǎng)絡(luò)產(chǎn)生影響而引起語音增強(qiáng)性能差異的重要條件,采用傳統(tǒng)學(xué)習(xí)方法進(jìn)行處理時(shí)只需對語音幅度進(jìn)行分析。確定混合特征參數(shù)與學(xué)習(xí)目標(biāo)后,再對神經(jīng)網(wǎng)絡(luò)開展輸入、輸出訓(xùn)練,同時(shí)利用最小均方誤差優(yōu)化網(wǎng)絡(luò)算法。再以BP 算法反向傳遞方式完成網(wǎng)絡(luò)參數(shù)的修正。從每次訓(xùn)練的結(jié)果中選擇最優(yōu)性能的網(wǎng)絡(luò)模型進(jìn)行記錄后建立測試網(wǎng)絡(luò)模型。

          本文選擇聯(lián)合損失函數(shù)對兩者差異進(jìn)行評價(jià),記錄最優(yōu)性能的網(wǎng)絡(luò)模型參數(shù)。進(jìn)行測試時(shí),先將含噪語音幅度譜加入經(jīng)過訓(xùn)練的模型內(nèi),之后通過模型對增強(qiáng)語音幅度譜進(jìn)行預(yù)測,最后以語音相位參數(shù)完成信號重構(gòu)。

          3 實(shí)驗(yàn)結(jié)果分析

          3.1 實(shí)驗(yàn)數(shù)據(jù)的選取

          以上語音數(shù)據(jù)都是由IEEE 語音數(shù)據(jù)庫提供,之后從NOISEX-92 噪聲庫內(nèi)提取Pink、Factory 與White 三種噪聲信號,這些信號保持一致頻率。按照同樣信噪比把剩余50 條純凈語音與噪聲后半段進(jìn)行混合后建立測試集。

          本文設(shè)定語音頻率為16 kHz,并以語音幅度譜作為輸入語音特征。各項(xiàng)網(wǎng)絡(luò)參數(shù)見表1。

          1688653008963247.png

          3.2 對比實(shí)驗(yàn)分析

          為了對本文建立的聯(lián)合損失函數(shù)與自注意力機(jī)制進(jìn)行有效性驗(yàn)證,構(gòu)建得到表2 的對比算法。

          1688653107817671.png

          從表3~5 中可以看到各噪聲條件下的PESQ 值。其中,表3 顯示,信噪比等于-5dB 的情況下,根據(jù)算法1 與2 測試結(jié)果可以發(fā)現(xiàn),在各類噪聲條件下,PESQ值提升均值達(dá)到0.13,同時(shí)STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發(fā)現(xiàn),PESQ 值提升了0.07,STOI 提升了0.01。

          1688653179727558.png

          表4 顯示,帶噪語音信噪比等于0 dB 的條件下,根據(jù)算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值都提升了0.11,此時(shí)STOI 值提升0.02。比較算法2 與3 可以發(fā)現(xiàn),PESQ 值提升0.09,STOI 提升0.01。

          1688653246347242.png

          表5 顯示,帶噪語音信噪比等于5 dB 的情況下,比較算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值提升達(dá)到0.13 的均值,STOI 值提升了0.01。根據(jù)算法2 與3的比較結(jié)果可知,PESQ 值提升0.07,STOI 提升0.01。

          1688653296941702.png

          綜合分析表3~5 得到下述結(jié)果:

          1)通過對比算法1 與2 測試結(jié)果得到:當(dāng)噪聲與信噪比都不同的情況下,以聯(lián)合損失函數(shù)實(shí)現(xiàn)的增強(qiáng)語音PESQ 值提高0.12,STOI 提高0.01。根據(jù)算法1 與2 可知,本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語音質(zhì)量的明顯優(yōu)化。

          2)對比算法2 與3 結(jié)果可以發(fā)現(xiàn),為神經(jīng)網(wǎng)絡(luò)模型設(shè)置注意力機(jī)制后,可以使增強(qiáng)語音PESQ 值提高0.08,STOI 提高0.01。同時(shí)根據(jù)算法2 與3 結(jié)果可以推斷,加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。

          3)比較算法1 與3 結(jié)果可知:以聯(lián)合損失函數(shù)對神經(jīng)網(wǎng)絡(luò)開展訓(xùn)練時(shí),同時(shí)加入自注意力機(jī)制來分析理神經(jīng)網(wǎng)絡(luò)特征的情況下能夠?qū)崿F(xiàn)增強(qiáng)語音質(zhì)量的顯著改善,此時(shí)PESQ 值提升0.2,STOI 提升0.03。

          4 結(jié)束語

          1)本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語音質(zhì)量的明顯優(yōu)化。加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。

          2)綜合運(yùn)用聯(lián)合損失函數(shù)并融合注意力機(jī)制后,可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強(qiáng)語音。利用注意力機(jī)制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強(qiáng)語音質(zhì)量的提升并達(dá)到更高的可懂度。

          參考文獻(xiàn):

          [1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.

          [2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.

          [3] 葛宛營,張?zhí)祢U.基于掩蔽估計(jì)與優(yōu)化的單通道語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2019, 39(10): 6.

          [4] 鮑長春,項(xiàng)揚(yáng).基于深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法回顧[J].信號處理,2019,35(12): 11.

          [5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.

          [6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.

          [7] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語音盲信號分離算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2015,(5): 6.

          [8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數(shù)字助聽器語音增強(qiáng)算法[J].電子器件,2019,42(4): 4.

          (本文來源于《電子產(chǎn)品世界》雜志2023年6月期)



          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉