2023國(guó)家科學(xué)技術(shù)獎(jiǎng)放榜!近十年AI領(lǐng)域首個(gè)一等獎(jiǎng)?wù)Q生。作者 | 三北
編輯 | 漠影
6月24日上午,一場(chǎng)科技盛會(huì)在北京召開。全國(guó)科技大會(huì)、國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)、兩院院士大會(huì)首次共同舉行,總書記為最高科學(xué)技術(shù)獎(jiǎng)獲得者等頒獎(jiǎng)。同時(shí),國(guó)家自然科學(xué)獎(jiǎng)、國(guó)家技術(shù)發(fā)明獎(jiǎng)、國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)等獎(jiǎng)項(xiàng)重磅揭榜。在獲獎(jiǎng)名單中,我們看到華為、科大訊飛、阿里云、小米等科技公司出現(xiàn),而科大訊飛作為第一完成單位的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目,更是斬獲國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來(lái),過(guò)去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。據(jù)悉,這一集合了多語(yǔ)種語(yǔ)音識(shí)別、多語(yǔ)種語(yǔ)音合成、多語(yǔ)種翻譯技術(shù)等為一體的綜合技術(shù),解決覆蓋69個(gè)語(yǔ)種的跨文化交流難題。當(dāng)下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“語(yǔ)音+大模型”的全新震撼交互體驗(yàn)。這一次的“國(guó)獎(jiǎng)”,則讓我們看到了中國(guó)AI的隱藏實(shí)力和“語(yǔ)音+大模型”的廣闊前景。
01.史上最卷科技“國(guó)獎(jiǎng)”,神仙打架
6月24日,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)揭榜,被央視網(wǎng)、人民網(wǎng)等主流媒體輪番報(bào)道,占據(jù)各大科技媒體的頭版頭條。五大科技獎(jiǎng)項(xiàng)揭榜結(jié)果大致如下:國(guó)家最高科學(xué)技術(shù)獎(jiǎng)2人:分別授予武漢大學(xué)李德仁院士、清華大學(xué)薛其坤院士;國(guó)家自然科學(xué)獎(jiǎng)49項(xiàng):一等獎(jiǎng)1項(xiàng),二等獎(jiǎng)48項(xiàng);國(guó)家技術(shù)發(fā)明獎(jiǎng)62項(xiàng):一等獎(jiǎng)8項(xiàng),二等獎(jiǎng)54項(xiàng);國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)139項(xiàng):特等獎(jiǎng)3項(xiàng),一等獎(jiǎng)16項(xiàng),二等獎(jiǎng)120項(xiàng);中華人民共和國(guó)國(guó)際科學(xué)技術(shù)合作獎(jiǎng):10人。本屆國(guó)獎(jiǎng)被稱為史上最難、最嚴(yán)格的一屆評(píng)獎(jiǎng)。一是因?yàn)閺?017年開始至今,國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)數(shù)度改革,強(qiáng)調(diào)科技獎(jiǎng)勵(lì)工作要堅(jiān)持國(guó)家戰(zhàn)略導(dǎo)向,并與國(guó)家重大戰(zhàn)略需求和中長(zhǎng)期科技發(fā)展規(guī)劃緊密結(jié)合。改革之后,提名制和寧缺毋濫是兩個(gè)重要原則:提名制,壓實(shí)了提名者對(duì)材料把關(guān)的責(zé)任,加強(qiáng)了對(duì)候選者的審核和誠(chéng)信審核;寧缺毋濫,讓獎(jiǎng)項(xiàng)評(píng)審更加嚴(yán)格,比如說(shuō)2020年度國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)計(jì)算機(jī)與自動(dòng)控制組的一等獎(jiǎng)就是空缺的。二是,因2021年、2022年國(guó)家科技獎(jiǎng)暫停,大量?jī)?yōu)秀成果累積,競(jìng)爭(zhēng)極其激烈。2023年受理的通用項(xiàng)目總數(shù)為1261項(xiàng),僅243項(xiàng)通過(guò)初評(píng),最終僅28項(xiàng)最終獲得特等獎(jiǎng)、一等獎(jiǎng),約占2%。國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)更是競(jìng)爭(zhēng)者眾。由垂直專業(yè)新媒體“科獎(jiǎng)圈”于今年2月的統(tǒng)計(jì)可知,2023年科技進(jìn)步獎(jiǎng)共28個(gè)分組、709個(gè)項(xiàng)目。聚焦信息領(lǐng)域,主要有計(jì)算機(jī)與自動(dòng)控制組(45項(xiàng))、電子與科學(xué)儀器組(28項(xiàng))、網(wǎng)絡(luò)與通信組(13項(xiàng))三個(gè)組。由公開信息可知,在信息領(lǐng)域,華為陳海波牽頭的“鴻蒙智能終端操作系統(tǒng)基座與產(chǎn)業(yè)應(yīng)用”、百度王海峰牽頭的“產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開源開放平臺(tái)”、曙光歷軍牽頭的“國(guó)產(chǎn)先進(jìn)計(jì)算系統(tǒng)關(guān)鍵技術(shù)及應(yīng)用”也都在初期提名之列。可謂“神仙打架”。不過(guò),從最終結(jié)果來(lái)看,只有科大訊飛牽頭的“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目戰(zhàn)到最后,并獲得了國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這是深度學(xué)習(xí)引發(fā)新一代人工智能浪潮以來(lái),過(guò)去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)??拼笥嶏w也是19項(xiàng)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)特等獎(jiǎng)、一等獎(jiǎng)中唯一作為牽頭單位獲獎(jiǎng)的民營(yíng)企業(yè)。
02.多語(yǔ)種智能語(yǔ)音及產(chǎn)業(yè)化,為何拔得頭籌
這是一個(gè)什么樣的項(xiàng)目?簡(jiǎn)單來(lái)說(shuō),“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”,是集合了多語(yǔ)種語(yǔ)音識(shí)別、多語(yǔ)種語(yǔ)音合成、多語(yǔ)種翻譯技術(shù)等智能語(yǔ)音技術(shù)和產(chǎn)業(yè)化為一體的綜合項(xiàng)目。目前,該技術(shù)支持69個(gè)語(yǔ)種,除了6個(gè)聯(lián)合國(guó)通用語(yǔ)種,包括漢語(yǔ)、英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)等,以及挪威語(yǔ)、丹麥語(yǔ)等63個(gè)小語(yǔ)種。同時(shí),該項(xiàng)目還覆蓋了24種主要中國(guó)方言。在堅(jiān)持國(guó)家戰(zhàn)略導(dǎo)向的大背景下,國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)的評(píng)選標(biāo)準(zhǔn)更系統(tǒng):不僅要完成重大科學(xué)技術(shù)創(chuàng)新,還要實(shí)現(xiàn)科學(xué)技術(shù)成果轉(zhuǎn)化,創(chuàng)造顯著經(jīng)濟(jì)效益。語(yǔ)音是人類最自然便捷的溝通方式,是智能設(shè)備人機(jī)交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是國(guó)際合作的基礎(chǔ)。多語(yǔ)種智能語(yǔ)音技術(shù)對(duì)于支撐人機(jī)交互、人類語(yǔ)言互通等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景。尤其是在當(dāng)前全球人工智能發(fā)展迅猛的大背景下,多語(yǔ)種智能語(yǔ)音技術(shù)更是當(dāng)前國(guó)際科技競(jìng)爭(zhēng)核心焦點(diǎn)之一。但是,這項(xiàng)技術(shù)面臨著諸多技術(shù)難題,科大訊飛從四個(gè)創(chuàng)新點(diǎn)完成了技術(shù)的突破。1、復(fù)雜語(yǔ)音信號(hào)解耦建模,破解“雞尾酒會(huì)”難題要說(shuō)語(yǔ)音識(shí)別的最突出難題是什么?很多人知道“雞尾酒會(huì)”效應(yīng)——遠(yuǎn)場(chǎng)、噪聲、多人講話往往難以聽清。對(duì)此,科大訊飛提出多通道語(yǔ)音信號(hào)時(shí)空分離建模方法,使人聲和噪聲精確分離;團(tuán)隊(duì)還將多維度語(yǔ)音屬性分層解耦,簡(jiǎn)單說(shuō)就是把內(nèi)容、韻律、音色以及語(yǔ)種等都抽出來(lái),以便更準(zhǔn)確地識(shí)別和傳達(dá),從而破解“雞尾酒會(huì)”難題。2、多語(yǔ)種共享建模,多語(yǔ)言識(shí)別測(cè)評(píng)超OpenAI再來(lái)看看另一個(gè)“卡脖子”技術(shù)——小語(yǔ)種智能語(yǔ)音系統(tǒng)。在當(dāng)前國(guó)際科技限制的情況下,小語(yǔ)種知識(shí)匱乏、訓(xùn)練數(shù)據(jù)稀缺,是困擾小語(yǔ)種訓(xùn)練的主要難題之一。科大訊飛設(shè)計(jì)了全新的多語(yǔ)種通用音素體系和基本語(yǔ)言單元,實(shí)現(xiàn)多語(yǔ)種統(tǒng)一音素韻律體系的構(gòu)建,又通過(guò)基于元學(xué)習(xí)的多語(yǔ)種預(yù)訓(xùn)練和基于語(yǔ)族分組的多語(yǔ)種共享建?!ㄋ椎卣f(shuō),就是將不同的小語(yǔ)種進(jìn)行分類,找到同類語(yǔ)種的共同規(guī)律,進(jìn)行分析建模和訓(xùn)練——最終,顯著提升了小語(yǔ)種語(yǔ)音系統(tǒng)性能。3、語(yǔ)音語(yǔ)義聯(lián)合建模,讀懂深層含義和專業(yè)知識(shí)人們交流中常面臨溝通障礙,深層語(yǔ)義理解對(duì)人來(lái)說(shuō)都是困難的,更別說(shuō)對(duì)機(jī)器了。科大訊飛提出語(yǔ)音語(yǔ)義互增強(qiáng)的魯棒口語(yǔ)理解技術(shù),并提出多源知識(shí)增強(qiáng)的可信文本生成技術(shù),有效提升語(yǔ)音交互、語(yǔ)音翻譯等復(fù)雜場(chǎng)景的語(yǔ)義理解準(zhǔn)確率,同時(shí)拉高專有詞匯及領(lǐng)域知識(shí)引用的準(zhǔn)確率。4、國(guó)產(chǎn)異構(gòu)硬件平臺(tái),建立國(guó)產(chǎn)化集群面對(duì)算力“卡脖子”難題,科大訊飛也加速了國(guó)產(chǎn)異構(gòu)硬件平臺(tái)關(guān)鍵技術(shù)的突破。目前,科大訊飛已建成5個(gè)國(guó)產(chǎn)化集群,2023年與華為聯(lián)合建設(shè)首個(gè)萬(wàn)卡全國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”,填補(bǔ)了國(guó)產(chǎn)超大模型訓(xùn)練平臺(tái)空白。除了技術(shù)上的突破之外,在重要評(píng)審維度“產(chǎn)業(yè)化”上,科大訊飛圍繞多語(yǔ)種智能語(yǔ)音技術(shù)構(gòu)建了自主可控的產(chǎn)業(yè)生態(tài),開創(chuàng)引領(lǐng)了我國(guó)語(yǔ)音產(chǎn)業(yè)的產(chǎn)業(yè)鏈,助力中國(guó)制造出海;促進(jìn)全球語(yǔ)言互通和“一帶一路”建設(shè);并且在進(jìn)一步打造覆蓋全球的國(guó)際產(chǎn)業(yè)生態(tài)。具體到大家都看得到的場(chǎng)景上:中國(guó)現(xiàn)在是汽車出口第一大國(guó),出口國(guó)外的智能汽車需要有外語(yǔ)的交互,由科大訊飛多語(yǔ)種智能技術(shù)而開發(fā)出來(lái)的車載智能化產(chǎn)品,就支持奇瑞、一汽、長(zhǎng)安等車企超200萬(wàn)套訂單出海;出國(guó)旅游,科大訊飛基于多語(yǔ)種技術(shù)開創(chuàng)了智能翻譯機(jī)的新品類,帶上一個(gè)翻譯機(jī)就像帶上一個(gè)會(huì)85種語(yǔ)言的AI翻譯官;在會(huì)議、辦公等場(chǎng)景,訊飛聽見系列產(chǎn)品能夠?qū)崟r(shí)記錄和翻譯會(huì)議錄音,目前服務(wù)遍及全球50多個(gè)國(guó)家和地區(qū),支持了超過(guò)40萬(wàn)場(chǎng)會(huì)議,科大訊飛還基于此研發(fā)出了普通用戶也能用的訊飛辦公本、訊飛錄音筆等產(chǎn)品。2017年開始,科大訊飛承建智能語(yǔ)音國(guó)家新一代人工智能開放創(chuàng)新平臺(tái),目前已聚集平臺(tái)開發(fā)者數(shù)700.7萬(wàn),意思就是由700多萬(wàn)人在調(diào)用多語(yǔ)種智能語(yǔ)音技術(shù)去開發(fā)自己的產(chǎn)品。這就是技術(shù)帶來(lái)的生生不息的產(chǎn)業(yè)生態(tài)。據(jù)了解,近三年來(lái),“多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目累計(jì)實(shí)現(xiàn)直接經(jīng)濟(jì)效益 521.28 億元,并帶動(dòng)由工信部和安徽省政府共建、以科大訊飛為核心的“中國(guó)聲谷”產(chǎn)業(yè)集聚發(fā)展。不得不說(shuō),這么多技術(shù)突破和產(chǎn)業(yè)發(fā)展,不是一朝一夕就能完成的,難怪有媒體說(shuō)科大訊飛是“十年磨一劍”!
03.大模型時(shí)代,多語(yǔ)種智能語(yǔ)音技術(shù)能做什么?
眾所周知,人工智能又來(lái)到了新的大模型時(shí)代,那么積累十年的多語(yǔ)種智能語(yǔ)音技術(shù)能做什么?尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。眾多業(yè)內(nèi)專業(yè)人士認(rèn)為,GPT-4o對(duì)萬(wàn)物互聯(lián)時(shí)代語(yǔ)音浪潮的推動(dòng),類似于當(dāng)年Siri對(duì)語(yǔ)音應(yīng)用的推動(dòng)。一夜之間,“語(yǔ)音+大模型”賽道受到各界高度關(guān)注。科大訊飛多語(yǔ)種智能語(yǔ)音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)是相互補(bǔ)充、相互促進(jìn)的。語(yǔ)音屬性解耦、語(yǔ)音信號(hào)時(shí)空分離等技術(shù)突破,可以將語(yǔ)音信號(hào)經(jīng)過(guò)編碼后輸入到大語(yǔ)言模型,顯著提升語(yǔ)音大模型的效果。大模型技術(shù)可以在復(fù)雜語(yǔ)義理解、長(zhǎng)文本建模能力上進(jìn)一步提升語(yǔ)音識(shí)別、合成和翻譯的效果,同時(shí)基于其強(qiáng)大的語(yǔ)義理解、知識(shí)問(wèn)答、多輪對(duì)話、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語(yǔ)音技術(shù)的使用場(chǎng)景和應(yīng)用價(jià)值。今年1月30日,科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語(yǔ)音大模型,顯著超過(guò)了OpenAI的Whisper v3的語(yǔ)音大模型能力,Whisper v3的24個(gè)主要語(yǔ)種的平均識(shí)別率為82%,而星火語(yǔ)音大模型達(dá)到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力,使機(jī)器具備更加豐富的超擬人情緒感知和表達(dá)。可以預(yù)測(cè),語(yǔ)音同傳、自動(dòng)客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機(jī)器人、服務(wù)機(jī)器人……這些原有的應(yīng)用都將被變革,科幻片《她(Her)》中的智能陪伴助理也將成為現(xiàn)實(shí)。今年6月27日,訊飛星火V4.0發(fā)布也將公布最新的端到端落地成果,拭目以待。
04.結(jié)語(yǔ):大國(guó)科技競(jìng)賽正酣,AI新機(jī)遇到來(lái)
時(shí)隔兩年多,國(guó)家科技獎(jiǎng)再次重磅頒發(fā),引起了整個(gè)智能產(chǎn)業(yè)圈的強(qiáng)烈關(guān)注。這是十年以來(lái),AI領(lǐng)域項(xiàng)目首次獲得國(guó)家科技進(jìn)步一等獎(jiǎng),表明了國(guó)家層面對(duì)AI產(chǎn)業(yè)在技術(shù)創(chuàng)新度、轉(zhuǎn)化程度、示范帶動(dòng)作用等方面的蓋章認(rèn)可。當(dāng)下大國(guó)科技競(jìng)賽正酣,是新的挑戰(zhàn),也是新的戰(zhàn)略機(jī)遇。就像曾經(jīng)的互聯(lián)網(wǎng)技術(shù)一樣,國(guó)產(chǎn)的AI技術(shù)不知不覺中已突破奇點(diǎn),已百花齊放,而大模型技術(shù)及應(yīng)用可能已在爆發(fā)前夜。 來(lái)源:智東西
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。