比 OpenAI 更好!!谷歌發(fā)布 20 億參數(shù)通用語音模型——USM
去年11月,谷歌曾宣布“1000 種語言計劃”,通過建立一個機器學習模型,從而支持世界上使用人數(shù)最多的 1000 種語言。
近日,谷歌正式發(fā)布 20 億參數(shù)通用語音模型——USM,可支持 100 多種語言自動識別內(nèi)容檢測。谷歌將其描述為“最先進的通用語音模型”,擁有 20 億個參數(shù),經(jīng)過了 1200 萬小時的語音、280 億個句子和 300 多個語種數(shù)據(jù)集的預訓練。
目前該模型在 Youtube 的字幕生成中已展現(xiàn)出來,可自動翻譯和檢測,如英語、普通話,甚至是阿塞拜疆語、阿薩姆語等小眾語言。
谷歌表示:“與 OpenAI 的大型通用語音模型 Whisper 相比,USM 的數(shù)據(jù)訓練時長更短,錯誤率更低?!?/span>
支持 100 多種語言,將面臨兩大挑戰(zhàn)
隨著微軟和谷歌就 AI 聊天機器人展開討論后,我們逐漸清楚,這并不是機器學習和大語言模型的唯一用途。
據(jù)傳言,谷歌計劃在今年的年度 I/O 大會上展示 20 多款由 AI 驅(qū)動的產(chǎn)品。為了實現(xiàn)“1000種語言計劃”,谷歌表示他們目前需要解決自動語音識別(ASR)中的兩大挑戰(zhàn)。
一是傳統(tǒng)的學習方法的缺乏可擴展性。將語音技術(shù)擴展到多語種的一個基本挑戰(zhàn)便是需要足夠的數(shù)據(jù)來訓練高質(zhì)量的模型,使用傳統(tǒng)方法時,需要手動將音頻數(shù)據(jù)進行標記,既耗時、價格又高。而對于那些小眾冷門的語種,更難找到預先存在的來源收集。
二是在擴大語言覆蓋范圍和提高模型質(zhì)量的同時,模型必須以高效的計算方法來改進。這就要求學習算法更加靈活、高效、可推廣。這些算法需要使用來源廣泛的數(shù)據(jù),并在不用重復訓練的情況下更新模型,再推廣到新的語言中。
三個步驟降低錯誤率
據(jù)論文介紹,USM 使用的是標準的編碼器-****架構(gòu),其中****是 CTC、RNN-T 或 LAS。編碼器則使用的是 Conformer 或卷積增強 transformer。Conformer的關(guān)鍵組件是 Conformer 塊,它由注意力模塊、前饋模塊和卷積模塊組成。通過將語音信號的 log-mel 聲譜圖作為輸入,進行卷積下采樣,然后使用一系列的 Conformer 塊和投影層得到最終的嵌入。
訓練共分為三個步驟:
第一步,是使用 BEST-RQ 來對涵蓋數(shù)百種語種的語音音頻進行自我監(jiān)督學習。
第二步,需要使用多目標監(jiān)督預訓練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數(shù)據(jù)上聯(lián)合訓練模型。
最后一步,需要 USM 對下游任務進行微調(diào),包括 ASR(自動語音識別)和 AST(自動語音翻譯)。
多項結(jié)果驗證
YouTube Captions 上的多語言表現(xiàn)
谷歌通過預訓練集成了 300 多種語言,并通過對 YouTube Captions 的多語言語音數(shù)據(jù)進行微調(diào),證明了預先訓練的編碼器的有效性。
受監(jiān)督的 YouTube 數(shù)據(jù)包括 73 種語言,平均每種語言的數(shù)據(jù)不到 3000 小時。盡管監(jiān)督數(shù)據(jù)有限,但 USM 在 73 種語言中實現(xiàn)了小于 30% 的單詞容錯率(WER)。與當前內(nèi)部最先進的模型相比,還要低 6%。與最近發(fā)布的大型模型 Whisper (large-v2)相比,USM 在 18 種語言中的錯誤率只有32.7%,同樣低于 Whisper。
對下游 ASR 任務的可推廣性
在公開可用的數(shù)據(jù)集上,USM 在 CORAAL (非裔美國人方言英語)、SpeechStew (en-US)和 FLEURS(102種語言)的數(shù)據(jù)集上的 WER 要比 Whisper 更低。不管是否接受過域內(nèi)數(shù)據(jù)訓練,USM 的 WER 都更低。
自動語音翻譯(AST)
對于語音翻譯,谷歌在 CoVoST 數(shù)據(jù)集上對 USM 進行微調(diào)。通過有限的監(jiān)督數(shù)據(jù)達到了最佳性能。為了評估模型性能的廣度,谷歌根據(jù)資源可用性將 CoVoST 數(shù)據(jù)集中的語言劃分為高、中、低三種,并計算每個部分的 BLEU 得分(越高越好)。
如下圖所示,USM 在所有細分領(lǐng)域的表現(xiàn)都優(yōu)于 Whisper。
團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。而 USM 的開發(fā)便是實現(xiàn)這一使命的關(guān)鍵步驟?;?USM 基礎(chǔ)模型框架和訓練 pipeline,未來谷歌可以將語音建模擴展至 1000 種語言。
結(jié)語
目前,USM 支持 100 多種語言。團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。
USM 的開發(fā)便是實現(xiàn)這一使命的關(guān)鍵步驟。
相信不久,谷歌可以將語音建模擴展至 1000 種語言。
參考鏈接:
https://analyticsindiamag.com/google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/
https://arxiv.org/abs/2303.01037
https://www.theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model
https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。