基于小波變換和自相關(guān)函數(shù)的基音頻率檢測算法
3 算法流程圖
算法過程如下:
(1)采集語音信號。人的語音信號頻率都在6 kHz以內(nèi),根據(jù)Nyqtfist采樣定理,fs=11 025 Hz。把采集得到的語音信號記為X;
(2)基音頻率變化范圍大,從老年男性的50 Hz到兒童和女性的450 Hz。因此使用小波變換進行濾波時,要把50~500 Hz的語音信號加強,把高于500 Hz的語音信號減弱,以去除共振峰和高頻噪音的影響;
(3)同一個人在不同情態(tài)下發(fā)音的基音周期也不同,加之基音周期還受單詞發(fā)音音調(diào)的影響,因此基音檢測實際上是估計短時語音的平均周期。采用L點的矩形窗來截取信號,進行短時分析,一般取窗口的長度為36 ms,幀重疊18 ms;
(4)利用自相關(guān)函數(shù)估計第i幀語音信號的基音
周期fpi。若fpi的頻率范圍超出了[60 Hz,500 Hz],則判斷該幀為清音幀,聲帶不振動,fpi,置為O Hz。
算法流程圖如圖4所示:
4 實 驗
首先通過一個真實的語音數(shù)據(jù)來說明第3節(jié)算法的有效性,然后將其與傳統(tǒng)的自相關(guān)函數(shù)法的結(jié)果進行比較。
在圖5中,圖5(a)為作者(男性)讀“馬到成功”的語音信號波形,fs=1l 025 Hz,用普通麥克風在自然環(huán)境下錄制,時長為2 s。選擇db4小波基,對原始語音信號進行二進小波變換,取小波變換后第三層的低頻部分信號,該低頻信號如圖5(b)所示。用幀長為36 ms的矩形窗把圖5(a)中原始信號分成165幀,并用自相關(guān)函數(shù)估計每一幀的基音頻率,基音頻率的變化曲線如圖5(c)所示。同樣地把圖5(b)中經(jīng)小波變換后所得的低頻語音信號分成165幀,然后用自相關(guān)函數(shù)估計每一幀的基音頻率,基音頻率的變化曲線如圖5(d)所示。
評論