利用MEMS麥克風陣列定位并識別音頻或語音信源的技
麥克風陣列通過RJ45以太風接口或USB OTG FS接口連接其它器件,與其它器件交互是通過可控制基本板設置的DIP開關實現(xiàn)。
如下圖所示,每個MEMS麥克風都是由同一個時鐘源觸發(fā),時鐘源由專用振蕩器驅(qū)動,對每個GPIO端口的一個引腳輸出1位PDM 高頻信號。輸出PDM數(shù)據(jù)頻率與輸入時鐘同步,因此,DMA控制器以同一頻率即音頻捕捉頻率對GPIO端口進行讀操作,然后將1 ms音頻數(shù)據(jù)(每次)保存在存儲器緩沖電路。這時,該緩沖器包含麥克風交叉信號,然后軟件利用優(yōu)化的快速解碼函數(shù)對數(shù)據(jù)進行解復用處理。最后,PDM 數(shù)據(jù)通過數(shù)字信號處理環(huán)節(jié),再進行PDM轉(zhuǎn)PCM處理。
圖 5.每個MEMS麥克風都是由同一個時鐘源觸發(fā),時鐘源由專用振蕩器驅(qū)動,對每個GPIO端口的一個引腳輸出1位PDM 高頻信號
麥克風傳來的PDM信號經(jīng)過過濾和十分之一降采樣率處理,以取得所需頻率和分辨率的信號。麥克風輸出的PDM數(shù)據(jù)頻率(麥克風的輸入時鐘)必須是系統(tǒng)最終音頻輸出的倍數(shù),濾波器管道輸出是一個16位值,我們將 [-32768, 32767]視為一個單位增益(0 dB)的輸出范圍。
原先濾波管道產(chǎn)生的數(shù)字音頻信號在信號調(diào)理前被進一步處理。管道第一級是一個高通濾波器,主要用于除掉信號DC失調(diào)。為保護信號質(zhì)量,該濾波級是使用一個截止頻率不在可聽頻率范圍內(nèi)的 IIR濾波器,管道第二級是一個基于IIR濾波器的低通濾波器。兩個濾波器有啟用和禁用以及配置功能;可通過外部整數(shù)變量控制增益。
如上文所述,數(shù)據(jù)采集有兩個比特流解決方案,通過DP開關選擇使用哪一個方案。當選用 USB且在主機USB插入麥克風陣列時,主機將STM32_MEMS_Microphones視為一個標準的USB音頻設備。因此,主機系統(tǒng)無需安裝驅(qū)動軟件。例如, STM32_MEMS_Microphones可直接連接第三方PC音頻采集軟件。當選用以太網(wǎng)時,STM32_MEMS_Microphones發(fā)送 RTP數(shù)據(jù)包。在網(wǎng)絡服務器的以太網(wǎng)設置頁對目的地IP、設備單播地址和采集參數(shù)進行配置。
4.結(jié)論
音源定位識別是語音識別技術中的一個重要的語音預處理環(huán)節(jié),對提高音頻應用和聲控應用性能具有重要意義。音源定位主要用于自動語音識別、音頻模式識別、說話人發(fā)現(xiàn)及識別。MEMS技術的問世讓麥克風陣列能夠嵌入在上述應用設計中,執(zhí)行音頻信號預處理過程,為應用級提供最好的信息。
該嵌入式單個說話人及其語音定位識別方案基于一個集成ARM處理器和一組MEMS麥克風的原型板。初步測試結(jié)果證明了這一集成方案的可行性,且系統(tǒng)級模塊可以做語音、音頻識別目標板,滿足人機、人與周圍環(huán)境的自然用戶界面的功能要求。
評論