基于自適應軟掩模的語音混合特征增強分析
目前,音頻處理技術獲得了眾多學者的關注與研究,相關語音處理技術也得到了開發(fā)應用[1-2]。例如,在開展語音增強時,需要根據語音特征來判斷語音信息,各項語音特征對應的語音信息也存在差異,實際性能也具有明顯區(qū)別[3]。但根據傳統(tǒng)語音特征進行分析時,濾波器存在較大限制,并不能對人耳聽覺非線性過程達到良好匹配性,這對系統(tǒng)語音增強過程具有明顯阻礙[4]。其中,梅爾濾波器組在高頻率段表現(xiàn)為更加稀疏的特點,由此造成高頻特征丟失的結果,按照人耳耳蝸結構構建的伽馬通濾波器組能夠非常準確體現(xiàn)人耳基底膜結構特征,同時實現(xiàn)優(yōu)異魯棒性能[5,6]。
本文引用地址:http://cafeforensic.com/article/202308/449901.htm根據上述研究結果,本文設計了一種以自適應軟掩模與混合特征共同分析的算法來實現(xiàn)語音增強的效果。以混合特征進行分析時,可以消除單一梅爾域濾波器無法提供高頻特征的缺陷。
1 本文方案
選擇IRM作為學習目標時,可以根據語音能量與噪語音強度比例將其設置于0~1 區(qū)間內。采用IRM 建立學習目標時,可以獲得較小失真度的增強語音,同時有效消除背景殘留噪聲。關于上述傳統(tǒng)學習目標控制情況,本文開發(fā)了一種以語音相位差實現(xiàn)的自適應軟掩模語音增強方法。上述學習目標綜合考慮了語音幅度與相位差,能夠對問題形成更深刻的理解。
以混合特征組成深度神經網絡輸入,再以融合相位
參數的自適應軟掩模來實現(xiàn)語音增強的效果。此算法由訓練與測試2個過程構成,從圖1 中可以看到包含混合特征與融合相位的系統(tǒng)框圖。
圖1 本文語音增強算法系統(tǒng)
1.1 訓練階段訓練階段
第1 步先對純凈語音、信號噪聲、含噪語音實施預處理,之后利用Gammatone 濾波器對上述音頻信號開展時頻分解,由此獲得耳蝸值。進行反向調優(yōu)時采用最小均方誤差法進行處理,結果見式(1):
(1)
式中,Vsoft(t,f)與soft(t,f) 分別對應第t 幀與第f 頻帶最優(yōu)時頻掩蔽參數與采用網絡模型估計得到的輸出結果,T 為語音幀的總數量。
1.2 測試階段測試階段
先提取獲得語音特征參數,再將其輸入神經網絡模型內,并根據網絡模型確定學習目標。綜合考慮測試集含噪語音特征與時頻掩蔽值確定增強語音特征,最終利用含噪相位完成語音數據的重構。
2 實驗結果與分析
2.1 實驗數據的選取
為了對本文混合特征與自適應軟掩模過程的性能特點進行驗證,從IEEE 語音數據庫內選出90 條獨立語音,信號頻率保持一致。按照同樣信噪比對剩余20 條純凈語音與噪聲后半段進行混合處理形成測試集。
2.2 對比實驗分析
根據表1給出的對比算法對本文混合與學習目標進行有效性測試。
表1 對比實驗內容及其編號
以對比算法1 進行處理是為了對本文混合特征性能優(yōu)異性進行驗證,根據對比算法2 與3 可知,本文建立的融合相位自適應軟掩模能夠滿足有效性要求。為實現(xiàn)對本文算法性能的更直觀判斷,將語音置于Factory 噪聲環(huán)境中,控制信噪比為5 dB 條件下獲得增強算法時域波形。
為綜合分析本文算法的實際處理性能,設置了PESQ 與STOI 兩個指標對混合特征與自適應軟掩模進行有效性驗證,得到表2~4 中在不同噪聲與信噪比環(huán)境中的PESQ 與STOI。根據表2 可知,帶噪語音信噪比為-5dB 的情況下,算法1 與2 顯示,對于各噪聲條件,PESQ 值提升了0.11 的均值水平,STOI 值則獲得了0.02的提升。會與算法2、3 相比,PESQ 值提升了0.21,同時STOI 提升了0.02。
表2 信噪比為-5dB的性能對比
根據表3 可知,帶噪語音信噪比為0dB 的條件下,各噪聲下的PESQ 值都提升達到0.18,STOI 值提升了0.01。與算法2、3 相比,PESQ 值提升了0.16,同時STOI 提升了0.01。
表3 信噪比為0dB的性能對比
對表4 進行分析可知,設置帶噪語音信噪比5dB 的條件下,各種噪聲下的PESQ 值都提升了近0.12,此時STOI 值提升了0.01。PESQ 值提升0.16,STOI 指標提升0.01。
表4 信噪比為5dB的性能對比
綜合分析表2~4 中各項參數得到以下結果:
1)對比算法1 與2 結果可知,混合特征增強語音屬于單特征MFCC,在所有信噪比與噪聲環(huán)境中,PESQ 值都提升了0.14,同時STOI 提升了0.01。根據算法1 與2 結果可以判斷本文設計的混合特征具備明顯優(yōu)勢,對提升語音質量發(fā)揮著關鍵作用。
2)通過對比算法2 與3 結果可以發(fā)現(xiàn),以本文融合相位差自適應軟掩模可以獲得比IRM 更顯著優(yōu)勢,對于本文信噪比與噪聲環(huán)境,增強語音PESQ 值提升了0.18,同時提升了0.01 的 STOI。算法2 與3 表明采用本文融合相位差自適應軟掩模能夠在獲得更優(yōu)增強語音質量的條件下改善可懂度。
3)比較算法1 與3 測試結果可知,經過優(yōu)化處理的語音特征與學習目標構建得到的語音增強算法能夠促進語音質量的明顯提升。增強語音PESQ 值提升0.32,STOI 提升了0.03。表明本文設計的算法具備明顯優(yōu)勢。
為準確分析實驗結果,將各算法對應的PESQ 與STOI 均值具體見圖2 與圖3。從以上結果中可以推斷本文設計的混合特征與融合相位自適應軟掩模具備明顯優(yōu)越性。
圖2 給出了各信噪比下以不同算法獲得的增強語音PESQ 均值,結果發(fā)現(xiàn),以自適應軟掩模與混合特征訓練神經網絡處理獲得的各信噪比PESQ 均值都超過其余兩種算法。由此表明采用本文經過改進后的語音特征與目標達到更優(yōu)的算法性能。
圖2 不同信噪比下增強語音PESQ平均值
圖3給出了各信噪比下以不同算法獲得的增強語音STOI均值,對圖3進行分析可以發(fā)現(xiàn),選擇自適應軟掩模與混合特征訓練神經網絡進行處理時獲得的各個信噪比下的STOI值達到了最大。因此采用本文設計的混合特征能夠對語音特性達到更準確評價的效果,并且利用融合相位差的自適應軟掩模能夠對時頻單元掩蔽結果進行準確評估。通過上述兩者的結合后能夠在獲得更優(yōu)增強語音質量的條件下進一步促進可懂度的提高。
圖3 不同信噪比下增強語音STOI平均值
3 結束語
1)選擇融合相位自適應軟掩模方式時,能最大程度去除背景噪聲,滿足有效性要求。
2)經過優(yōu)化處理的語音特征與學習目標構建得到的語音增強算法能夠促進語音質量提升。
3)以自適應軟掩模與混合特征訓練神經網絡處理獲得的各信噪比PESQ和STOI值都超過其余兩種算法,采用本文經過改進后的語音特征與目標達到更優(yōu)的算法性能。
參考文獻:
[1] 李如瑋,孫曉月,李濤.基于冪函數壓縮梅爾倒譜系數和掩膜后處理的多目標學習語音增強算法[J].電子與信息學報,2021,43:1-8.
[2] 孫坤倫,夏秀渝,孫文慧.基于聽覺掩蔽效應的改進型維納濾波算法[J].計算機與網絡,2020,46(13):4.
[3] 葛宛營,張?zhí)祢U.基于掩蔽估計與優(yōu)化的單通道語音增強算法[J].計算機應用,2019,39(10): 6.
[4] 鮑長春,項揚.基于深度神經網絡的單通道語音增強方法回顧[J].信號處理,2019,35(12):11.
[5] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語音盲信號分離算法[J].吉林大學學報(工學版),2015,(5):6.
[6] 李如瑋,孫曉月,李濤.基于冪函數壓縮梅爾倒譜系數和掩膜后處理的多目標學習語音增強算法[J].電子與信息學報,2021,43:1-8.
(本文來源于《電子產品世界》雜志2023年8月期)
評論