科大訊飛重磅發(fā)布星火大模型4.0,整體性能全面領(lǐng)先,打造國產(chǎn)大模型最強(qiáng)平替
首個(gè)支持74個(gè)語種方言免切換語音大模型破解強(qiáng)干擾場景下語音識別難題
近期科大訊飛作為第一完成單位的《多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化》項(xiàng)目,獲得國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這一次星火語音大模型迎來新突破。
劉慶峰認(rèn)為,語音將成為萬物互聯(lián)時(shí)代人機(jī)交互的主要方式,人機(jī)交互最重要的場景是遠(yuǎn)場、噪聲、多人說話、多語言,因此萬物互聯(lián)時(shí)代的AIUI(人工智能用戶界面)要滿足遠(yuǎn)場高噪聲、多語言多方言、全雙工、多模態(tài)等標(biāo)準(zhǔn)??拼笥嶏w也主導(dǎo)制定了全雙工語音交互ISO/IEC國際標(biāo)準(zhǔn),并于2023年5月發(fā)布。
面向萬物互聯(lián)時(shí)代,本次星火語音大模型發(fā)布的多語種多方言免切換語音識別能力,可支持37個(gè)語種、37種方言“自由對話”。其中,37個(gè)語種識別效果領(lǐng)先OpenAI whisper-V3,37個(gè)方言識別效果平均提升30%。現(xiàn)場,科大訊飛演示了訊飛輸入法混合方言和外語的語音輸入效果,能讓輸入效率大大提高。
科大訊飛還發(fā)布了軟硬件一體化訊飛同傳系統(tǒng),可支持大會同傳、會議同傳、展廳同傳、旅游同傳等多場景使用。本次參會的嘉賓座位上同樣配備訊飛同傳的收聽設(shè)備,佩戴后即可實(shí)時(shí)收聽多語種AI同聲傳譯。
針對強(qiáng)干擾場景下的語音識別難題,科大訊飛突破了多人混疊場景下的極復(fù)雜場景語音轉(zhuǎn)寫技術(shù),即使在三人混疊說話場景也能實(shí)現(xiàn)86%的語音識別準(zhǔn)確率。三位訊飛研究院的研究員現(xiàn)場實(shí)測,在噪音場景下同時(shí)混疊著說話,正常人耳已難以聽清,只見訊飛星火的多模態(tài)能力不但實(shí)現(xiàn)了三人重疊語音的角色分離,還能實(shí)時(shí)轉(zhuǎn)寫出每個(gè)人的語音,準(zhǔn)確的效果引發(fā)現(xiàn)場掌聲不斷。未來多模態(tài)的語音識別技術(shù)將應(yīng)用在訊飛聽見智慧辦公服務(wù)平臺、智慧屏等辦公產(chǎn)品中。
大模型正在推動人機(jī)交互變革,語音領(lǐng)域的所有應(yīng)用都值得被重構(gòu)。在大模型加持下,星火汽車智能座艙全新升級,不但具備了多語種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車交互更有溫度。當(dāng)前在汽車領(lǐng)域,訊飛語音交互產(chǎn)品國內(nèi)市占率穩(wěn)居第一,同時(shí)廣泛出口到世界各地。星火大模型為一汽、奇瑞、廣汽、江淮、長城等車企的眾多車型,賦予了高度智能的交互體驗(yàn)。
為了讓大模型更好落地,科大訊飛還打造了端云一體和軟硬一體的解決方案,賦能家電、機(jī)器人等更多行業(yè)場景。面向具身智能和人形機(jī)器人企業(yè)需求,本次科大訊飛正式發(fā)布機(jī)器人超腦平臺2.0,業(yè)內(nèi)首個(gè)支持多模態(tài)交互,目前超400家機(jī)器人企業(yè)已經(jīng)采用訊飛機(jī)器人超腦平臺。
星火大模型助力“中式”智能座艙走向世界
科大訊飛面向萬物互聯(lián)時(shí)代,星火語音大模型再突破,發(fā)布72個(gè)語種/方言免切換對話,破解強(qiáng)干擾場景下語音識別難題,發(fā)布國際領(lǐng)先的極復(fù)雜場景語音轉(zhuǎn)寫,并通過云邊端及軟硬一體化解決方案,為汽車智能座艙,開辟出了更廣闊的天地。智能座艙再升級 多模態(tài)創(chuàng)造新場景
多模態(tài)能力也為車上的硬件開辟了全新的應(yīng)用空間。傳統(tǒng)的DMS主要用于監(jiān)測駕駛員疲勞狀況,在大模型的賦能下,視覺判斷能夠高精度獲取包括心跳、呼吸、血壓在內(nèi)的多項(xiàng)身體健康指標(biāo),在用戶無感的狀態(tài)下長期記錄跟蹤。訊飛星火健康專家在此基礎(chǔ)上聯(lián)動訊飛醫(yī)療資源,為車主提供30種以上健康問題的監(jiān)測診斷,守護(hù)車主安全出行。
硬核科技助力 芯算融合讓域控更強(qiáng)勁
以訊飛最具代表性的語音算法為例,通過異構(gòu)將語音降噪、喚醒、識別、合成從CPU移植到NPU后,能夠降低60%的CPU算力需求。而通過在資源富裕的NPU上部署更大模型,能夠在本地實(shí)現(xiàn)媲美云端的語音識別效果。這就是紅旗EH7、蔚來ES8等一批新款車型上,語音識別又快又準(zhǔn)背后的技術(shù)秘密。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。