AR眼鏡:可視化聲音
推薦:將NSDT場景編輯器加入你的3D工具鏈
3D工具集:NSDT簡石數(shù)字孿生
??音頻可以包括各種各樣的聲音,從人類語音到非語音聲音,如狗吠和警笛聲。在為有聽力障礙的人設(shè)計(jì)可訪問的應(yīng)用程序時(shí),應(yīng)用程序應(yīng)該能夠識別聲音并理解語音。
??這種技術(shù)將幫助聾啞人或聽力障礙者可視化語音,如人類對話和非語音。將語音和聲音AI結(jié)合在一起,您可以將可視化效果疊加到AR眼鏡上,使用戶能夠看到和解釋他們無法聽到的聲音。
??根據(jù)世界衛(wèi)生組織的數(shù)據(jù),約有1.5B人(占全球人口的近20%)患有聽力損失。到2年,這個(gè)數(shù)字可能會上升到5.2050B。
??Cochl 是位于圣何塞的 NVIDIA 合作伙伴,是一家深度技術(shù)初創(chuàng)公司,使用聲音 AI 技術(shù)來理解任何類型的音頻。他們還是 NVIDIA Inception 計(jì)劃的成員,該計(jì)劃通過提供尖端技術(shù)和 NVIDIA 專家的訪問,幫助初創(chuàng)公司更快地構(gòu)建解決方案。
該平臺可以識別37種環(huán)境聲音,該公司通過添加尖端的語音轉(zhuǎn)文本技術(shù)更進(jìn)一步。這讓我們對聲音世界有了真正完整的理解。
AR眼鏡可可視化任何聲音??AR眼鏡有可能極大地改善聽力損失者的生活,作為一種可視化聲音的可訪問工具。這項(xiàng)技術(shù)可以幫助提高他們的溝通能力,使他們更容易導(dǎo)航和參與周圍的世界。
?在此方案中,自動(dòng)語音識別 (ASR) 用于使眼鏡能夠識別和理解人類語音。這項(xiàng)技術(shù)可以通過多種方式集成到眼鏡中:
使用麥克風(fēng)捕獲與聾啞人或聽力障礙者交談的人的語音,然后使用 ASR 算法將語音解釋并轉(zhuǎn)錄為文本。然后,該文本可以顯示在眼鏡上,使聾啞人或聽力障礙者能夠閱讀和理解語音。
ASR還可用于使眼鏡能夠響應(yīng)語音命令,以便用戶可以通過語音控制眼鏡。
他們還能夠在屏幕上顯示所有對話,例如在您開車時(shí)從地圖轉(zhuǎn)錄語音方向,以及任何其他聲音,如緊急車輛的喇叭或警報(bào)聲和風(fēng)噪。
??Cochl 使用 NVIDIA Riva 在其軟件堆棧中為其 ASR 功能提供支持。Riva 是一個(gè) GPU 加速、完全可定制的 SDK,用于開發(fā)語音 AI 應(yīng)用程序。通過使用麗娃,該平臺已經(jīng)能夠擴(kuò)展其理解各種聲音的能力,包括非語音聲音。
??“我們已經(jīng)測試了許多語音識別服務(wù),但只有麗娃提供了異常高和穩(wěn)定的實(shí)時(shí)性能。所以現(xiàn)在我們可以讓我們的聲音人工智能系統(tǒng)更接近人類的聽覺感知,“Cochl的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Yoonchang Han說。
??“正如我們所觀察到的,AR眼鏡最有可能用于環(huán)境嘈雜的開放空間。NVIDIA Riva 幫助我們即使在嘈雜的環(huán)境中也能準(zhǔn)確轉(zhuǎn)錄語音,并為我們提供了無縫體驗(yàn),可以集成到我們的 Cochl.Sense 平臺中。
輔助技術(shù)的未來??創(chuàng)建一個(gè)像人類一樣感知聲音的通用人工智能系統(tǒng)是一個(gè)巨大的挑戰(zhàn)。為了使AR眼鏡更容易獲得,需要更輕的可穿戴技術(shù)。
??然而,在這一點(diǎn)上,它們?nèi)匀皇菍⒙曇艉驼Z音轉(zhuǎn)換為視覺信息的理想媒介。通過集成機(jī)器聆聽功能,AR眼鏡可以為世界各地的聾啞人或聽力障礙者帶來更安全、更方便、更愉快的日常生活。
??Cochl還在探索語音AI的更多用例,例如為AR眼鏡上的任何視頻提供隱藏式字幕,以及可視化多說話人轉(zhuǎn)錄。為了給有聽力障礙的人提供最佳體驗(yàn),他們正在探索分析和可視化音樂的方法,以幫助他們至少理解音樂的流派和情感。
他們很高興嘗試更多 NVIDIA 解決方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。
原文鏈接:AR眼鏡:可視化聲音 (mvrlink.com)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。