生成式人工智能音頻快速發(fā)展:高信噪比MEMS麥克風(fēng)功不可沒(méi)
最新一代人工智能或?qū)㈤_啟新一輪科技革命,全面提升各種人機(jī)交互體驗(yàn)。
本文引用地址:http://cafeforensic.com/article/202406/460178.htm人工智能日益融入人們的日常生活,在方方面面帶來(lái)深刻變化。基于人工智能的文本和圖像生成工具可以創(chuàng)建出令人難以置信的內(nèi)容。不僅如此,人工智能的觸角已從視覺(jué)和文字媒介,伸向語(yǔ)音轉(zhuǎn)文字(STT)和自然語(yǔ)言處理(NLP)等音頻應(yīng)用,展現(xiàn)出巨大潛力。然而,音頻應(yīng)用質(zhì)量大幅提高是否僅僅歸功于最新一代基于大語(yǔ)言模型的生成式人工智能?還是說(shuō)硬件依然功不可沒(méi)?就拿高信噪比(SNR)微機(jī)電系統(tǒng)(MEMS)麥克風(fēng)來(lái)說(shuō),它為實(shí)現(xiàn)這種必將改變?nèi)藗內(nèi)粘I畹男沦|(zhì)人機(jī)交互做出了什么貢獻(xiàn)?本文將探討這些問(wèn)題并深入分析高信噪比MEMS麥克風(fēng)在文字轉(zhuǎn)語(yǔ)音(TTS)和自然語(yǔ)言處理(NLP)等前沿音頻應(yīng)用的發(fā)展中所起的關(guān)鍵作用。
人們每天佩戴耳機(jī)的時(shí)間越來(lái)越長(zhǎng)。隨著越來(lái)越多的人選擇在咖啡館等公共場(chǎng)所辦公,為了靜享安寧或是參加會(huì)議,人們紛紛使用耳機(jī)來(lái)隔絕外界喧囂。閑暇時(shí),人們也愿意戴著耳機(jī)打游戲、聽音樂(lè)或有聲讀物或者與朋友交談。由于佩戴時(shí)間越來(lái)越長(zhǎng),除舒適度之外,音頻質(zhì)量也成為重要的選購(gòu)標(biāo)準(zhǔn)。越來(lái)越多的人在選購(gòu)耳機(jī)時(shí)對(duì)“高級(jí)音頻功能”感興趣,如空間音頻、清晰語(yǔ)音通話和低延遲等。
語(yǔ)音識(shí)別和語(yǔ)音生成是消費(fèi)電子產(chǎn)品和汽車的重要音頻功能。近幾年來(lái),包括Siri和Alexa在內(nèi)的語(yǔ)音助手一直在簡(jiǎn)化操作并推出新的應(yīng)用,如通過(guò)語(yǔ)音命令控制智能家居設(shè)備。如今,從智能手機(jī)(圖1)和耳機(jī)到智能電視、智能音箱、智能家居設(shè)備、筆記本電腦和平板電腦,各式各樣的設(shè)備都配備了集成語(yǔ)音助手。集成在設(shè)備中的語(yǔ)音助手(如智能手機(jī)、耳機(jī)、智能電視和智能音箱)依賴于這些麥克風(fēng)捕捉到的高質(zhì)量音頻輸入。高信噪比(信號(hào)與噪聲比)麥克風(fēng)在實(shí)現(xiàn)卓越音頻質(zhì)量方面起著關(guān)鍵作用;對(duì)于遠(yuǎn)場(chǎng)應(yīng)用,如智能音箱,高信噪比麥克風(fēng)可以更好地捕捉音頻;真無(wú)線耳機(jī)(TWS)中的主動(dòng)降噪(ANC)和透?jìng)髂J降裙δ芤彩芤嬗诟咝旁氡塞溈孙L(fēng),提升了用戶體驗(yàn)。汽車也廣泛使用語(yǔ)音助手來(lái)控制多種不同功能,以便駕駛員雙手不離開方向盤即可完成操作。
SAR預(yù)測(cè),到2028年,帶集成語(yǔ)音助手的設(shè)備的市場(chǎng)總銷量將增至每年30億臺(tái),復(fù)合年增長(zhǎng)率達(dá)5%。1
人工智能在音頻領(lǐng)域的應(yīng)用前景
另外目前的系統(tǒng)還不夠完美??谝簟⒄Z(yǔ)病或簡(jiǎn)單的背景噪聲等仍然會(huì)導(dǎo)致語(yǔ)音識(shí)別失敗。語(yǔ)音輸出聽起來(lái)也非常生硬,與真人發(fā)音有很大差別。
最新一代人工智能或?qū)㈤_啟新一輪科技革命,全面提升各種人機(jī)交互體驗(yàn)。生成式人工智能音頻的優(yōu)勢(shì)不僅在于增強(qiáng)語(yǔ)音助手的功能,還在于它能夠更好地理解人類的意圖。例如,人工智能生成語(yǔ)音與真人發(fā)音幾乎難以分辨,從而可以為視障群體提供更好的幫助。各種數(shù)字平臺(tái)都可以利用人工智能音頻來(lái)提升用戶體驗(yàn),娛樂(lè)行業(yè)或客戶支持領(lǐng)域也可以探索人工智能音頻帶來(lái)的新的可能性。
生成式人工智能音頻的一個(gè)重要應(yīng)用是語(yǔ)音轉(zhuǎn)文字,即將說(shuō)的話轉(zhuǎn)換成文字。使用人工智能可以提高速度和準(zhǔn)確率。語(yǔ)音轉(zhuǎn)文字(STT)結(jié)合文字轉(zhuǎn)語(yǔ)音(TTS),可以在諸如筆記本電腦或智能手機(jī)等消費(fèi)電子產(chǎn)品中實(shí)現(xiàn)多種應(yīng)用,包括集成語(yǔ)音助手以及自動(dòng)轉(zhuǎn)錄會(huì)議。在會(huì)議中,基于人工智能的應(yīng)用可以總結(jié)出,以把握討論的精神實(shí)質(zhì)。在會(huì)議進(jìn)行過(guò)程中,您可以查看不同人提出的觀點(diǎn),以確保全面考慮每個(gè)人的意見(jiàn)。
自然語(yǔ)言處理(NLP)和生成富有表現(xiàn)力的語(yǔ)音
自然語(yǔ)言處理(NLP)是生成式人工智能語(yǔ)音的基礎(chǔ)技術(shù)。它致力于理解口頭語(yǔ)言的含義,而不考慮口音、口語(yǔ)化表達(dá)、發(fā)音含糊不清以及口頭語(yǔ)言與書面語(yǔ)言之間的其他差異。自然語(yǔ)言處理還可以根據(jù)語(yǔ)速、語(yǔ)調(diào)和語(yǔ)氣,識(shí)別出觀點(diǎn)和情緒。人可以發(fā)出各種各樣的聲音,因此,自然語(yǔ)言處理的聲音采集必須盡可能準(zhǔn)確地捕捉到純凈的語(yǔ)音信號(hào),同時(shí)將背景噪聲、雜音和其他外部影響降至最低。換句話說(shuō),麥克風(fēng)和信號(hào)處理有助于顯著提高自然語(yǔ)言處理質(zhì)量。
要實(shí)現(xiàn)出色的語(yǔ)音識(shí)別,必須用盡可能多的不同真人聲音對(duì)人工智能進(jìn)行訓(xùn)練。只有這樣,它才能處理語(yǔ)音的微妙之處并理解口語(yǔ)文字。
適用于人工智能音頻的MEMS麥克風(fēng)
同自然語(yǔ)言處理的情況一樣,人工智能音頻必須借助的硬件才能高質(zhì)量地完成任務(wù)。首先是將人類語(yǔ)音產(chǎn)生的聲波轉(zhuǎn)換成電信號(hào),轉(zhuǎn)換質(zhì)量直接關(guān)系到對(duì)所捕捉信號(hào)的理解。任何轉(zhuǎn)換損失或劣化都會(huì)降低語(yǔ)音轉(zhuǎn)文字的準(zhǔn)確率。
麥克風(fēng)是音頻鏈中的第一個(gè)環(huán)節(jié),在人工智能音頻設(shè)備必須選擇合適的麥克風(fēng)。MEMS麥克風(fēng)可謂當(dāng)仁不讓:它們不僅具備高性能和低功耗,而且外形小巧,可輕松集成到各式各樣的設(shè)備中。
MEMS麥克風(fēng)主要由三個(gè)部分組成(圖2)。首先是用作傳感元件的微機(jī)電系統(tǒng):膜片和背極板共同構(gòu)成一個(gè)電容器,聲波使膜片振動(dòng),振動(dòng)導(dǎo)致電容變化從而產(chǎn)生電信號(hào)。第二個(gè)組成部分是專用集成電路(ASIC),其中包含向膜片施加電壓的電荷泵、放大器、穩(wěn)定輸入電壓的穩(wěn)壓器(LDO)和校準(zhǔn)邏輯電路。第三個(gè)組成部分是封裝,它將這些元件集于一體,提供保護(hù)和屏蔽并形成后腔室。
MEMS麥克風(fēng)框圖
要在有背景噪聲、口音或講話人與麥克風(fēng)之間的距離不理想等困難條件下,識(shí)別出語(yǔ)音的細(xì)微差別,麥克風(fēng)的信噪比是關(guān)鍵特性。麥克風(fēng)的所有元件(MEMS、ASIC、封裝和入聲孔)都會(huì)產(chǎn)生自噪聲。信噪比描述了麥克風(fēng)固有的自噪聲相對(duì)于標(biāo)準(zhǔn)參考信號(hào)的強(qiáng)度。信噪比越高,能提供更穩(wěn)定、更清晰的語(yǔ)音和數(shù)據(jù)傳輸,減少噪聲干擾,提高設(shè)備性能和穩(wěn)定性。
XENSIV? MEMS麥克風(fēng)帶給人工智能音頻的優(yōu)勢(shì)
如上所述,人工智能音頻設(shè)備需要采用高信噪比麥克風(fēng)來(lái)實(shí)現(xiàn)準(zhǔn)確的語(yǔ)音識(shí)別。英飛凌已經(jīng)成功地研發(fā)了許多高性能MEMS麥克風(fēng)2,包括具有革命性意義的密封雙膜(SDM)MEMS麥克風(fēng)技術(shù)。它使用兩個(gè)膜片和一個(gè)帶電定子來(lái)形成一個(gè)密封的低壓腔(圖3)和一個(gè)差分輸出信號(hào),這種架構(gòu)可實(shí)現(xiàn)超高信噪比(高達(dá)75 dB)和極低失真,并為麥克風(fēng)提供防水防塵高防護(hù)(IP57)。
SDM技術(shù)使用兩個(gè)膜片和一個(gè)帶電定子來(lái)形成一個(gè)密封的低壓腔和一個(gè)差分輸出信號(hào)從而實(shí)現(xiàn)超高信噪比和極低失真
英飛凌XENSIV? IM73A135正是應(yīng)用了這個(gè)技術(shù),信噪比達(dá)到73 dB,處于行業(yè)內(nèi)領(lǐng)先地位特別適合人工智能音頻等要求嚴(yán)格的應(yīng)用。其4×3 mm2封裝允許將聲音捕捉單元小型化,以便輕松將人工智能語(yǔ)音技術(shù)集成到各種設(shè)備中,包括筆記本電腦、會(huì)議電話以及智能音箱和智能手機(jī)等。
XENSIV? MEMS麥克風(fēng)的另一個(gè)優(yōu)點(diǎn)是低能耗。它們提供多種不同工作模式,通過(guò)節(jié)能來(lái)幫除了性能領(lǐng)先助提高設(shè)備的功率效率。許多帶生成式人工智能語(yǔ)音功能的設(shè)備都是電池供電的便攜式設(shè)備,低能耗對(duì)于延長(zhǎng)電池續(xù)航尤為重要。
得益于其尺寸小巧、經(jīng)濟(jì)劃算和低功耗,在一臺(tái)設(shè)備中配置多個(gè)麥克風(fēng)。這樣可以檢測(cè)并降低背景噪聲,提高語(yǔ)音識(shí)別準(zhǔn)確率。還可以采用波束成形算法,從背景噪聲中分離出并拾取特定講話人的語(yǔ)音。
如今人們很重視改善音頻質(zhì)量,市場(chǎng)數(shù)據(jù)也反映出MEMS麥克風(fēng)的優(yōu)勢(shì)。高信噪比MEMS麥克風(fēng)市場(chǎng)的增長(zhǎng)速度明顯超過(guò)低信噪比麥克風(fēng)市場(chǎng)。Omdia預(yù)計(jì),信噪比高于64 dB的MEMS麥克風(fēng)在消費(fèi)領(lǐng)域的復(fù)合年增長(zhǎng)率將達(dá)到8.7%,到2027年銷售量將接近30億個(gè)3。
英飛凌很早就預(yù)見(jiàn)到這一趨勢(shì),我們一直在研發(fā)適用于人工智能音頻應(yīng)用等的高性能MEMS麥克風(fēng)。
除了性能領(lǐng)先的73-dB信噪比之外,具備更高信噪比、更低功耗的MEMS麥克風(fēng)也即將相繼面市。
XENSIV? MEMS麥克風(fēng)的主要價(jià)值指標(biāo)
結(jié)語(yǔ)
在生成式人工智能音頻領(lǐng)域,高信噪比MEMS麥克風(fēng)起到了至關(guān)重要的作用。隨著人工智能推動(dòng)語(yǔ)音轉(zhuǎn)文字(STT)等音頻應(yīng)用不斷發(fā)展,MEMS麥克風(fēng)也通過(guò)捕捉細(xì)致入微的語(yǔ)音數(shù)據(jù),為提高語(yǔ)音識(shí)別準(zhǔn)確率發(fā)揮了積極作用,助力在消費(fèi)電子產(chǎn)品和面向視障群體的無(wú)障礙功能等領(lǐng)域?qū)崿F(xiàn)更加自然而實(shí)用的人工智能音頻。充分利用優(yōu)質(zhì)MEMS麥克風(fēng)的這些優(yōu)點(diǎn),人工智能音頻將在未來(lái)幾年開辟更多應(yīng)用領(lǐng)域,包括語(yǔ)音克隆、語(yǔ)音情緒識(shí)別等等。
英飛凌科技自主研發(fā)和生產(chǎn)MEMS麥克風(fēng)的所有組件。英飛凌可以針對(duì)每種應(yīng)用,確定MEMS、ASIC和封裝的最佳組合以實(shí)現(xiàn)最優(yōu)性能。這為改善用戶體驗(yàn)和拓寬人工智能音頻應(yīng)用領(lǐng)域鋪平了道路。
參考文獻(xiàn)
1 SAR Insight & Consulting發(fā)布的《語(yǔ)音助手平臺(tái)預(yù)測(cè)》,2023年。
2 英飛凌科技。
3 Omdia(2023年發(fā)布)《MEMS麥克風(fēng)調(diào)研報(bào)告》。
評(píng)論