NaturalSpeech模型合成語(yǔ)音在CMOS測(cè)試中首次達(dá)到真人語(yǔ)音水平
文本到語(yǔ)音合成(Text to Speech,TTS)是一項(xiàng)根據(jù)文本生成可懂且自然的語(yǔ)音的計(jì)算機(jī)技術(shù) 。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,TTS 在學(xué)術(shù)界和工業(yè)界取得了快速突破并且被廣泛應(yīng)用。在 TTS 的研究和產(chǎn)品上,微軟一直有著深厚的積累。
在研究方面,微軟曾創(chuàng)新提出了多個(gè) TTS 模型,包括基于 Transformer 的語(yǔ)音合成(TransformerTTS)、快速語(yǔ)音合成(FastSpeech 1/2、LightSpeech)、低資源語(yǔ)音合成(LRSpeech)、定制化語(yǔ)音合成(AdaSpeech 1/2/3/4)、歌聲合成(HiFiSinger)、立體聲合成(BinauralGrad)、聲碼器(HiFiNet、PriorGrad)、文本分析、說(shuō)話人臉合成等,而且推出了 TTS 領(lǐng)域最詳盡的文獻(xiàn)綜述。同時(shí),微軟亞洲研究院還在多個(gè)學(xué)術(shù)會(huì)議上(如 ISCSLP 2021、IJCAI 2021、ICASSP 2022)舉辦了語(yǔ)音合成教程,并在 Blizzard 2021 語(yǔ)音合成比賽中推出了 DelightfulTTS,獲得了最好成績(jī)。此外,微軟還推出了開(kāi)源語(yǔ)音研究項(xiàng)目 NeuralSpeech 等。
在產(chǎn)品方面,微軟在 Azure 認(rèn)知服務(wù)中提供了強(qiáng)大的語(yǔ)音合成功能,開(kāi)發(fā)人員可以借助其中的 Neural TTS 功能將文本轉(zhuǎn)換為逼真的語(yǔ)音,用于眾多場(chǎng)景之中,例如語(yǔ)音助手、有聲讀物、游戲配音、輔助工具等等。利用 Azure Neural TTS,用戶既可以直接選擇預(yù)置的音色,也可以自己錄制上傳聲音樣本自定義音色。目前,Azure Neural TTS 支持超過(guò)120種語(yǔ)言,包括多語(yǔ)言變體或方言,同時(shí)該功能也已整合到了多個(gè)微軟產(chǎn)品中,并且被業(yè)界諸多合作伙伴所采用。為了持續(xù)推動(dòng)技術(shù)創(chuàng)新,提高服務(wù)質(zhì)量,微軟 Azure 語(yǔ)音團(tuán)隊(duì)與微軟亞洲研究院密切合作,讓 TTS 在不同場(chǎng)景下聽(tīng)起來(lái)更多樣、更悅耳,也更自然。
近日,微軟亞洲研究院和微軟 Azure 語(yǔ)音團(tuán)隊(duì)研發(fā)出了全新的端到端 TTS 模型 NaturalSpeech,該模型在廣泛使用的 TTS 數(shù)據(jù)集(LJSpeech)上使用 CMOS (Comparative Mean Opinion Score) 作為指標(biāo),首次達(dá)到了與自然語(yǔ)音無(wú)明顯差異的優(yōu)異成績(jī)。這一創(chuàng)新性的科研成果未來(lái)也將集成到微軟 Azure TTS 服務(wù)中供更多用戶使用。
四大創(chuàng)新設(shè)計(jì)讓NaturalSpeech超越傳統(tǒng)TTS系統(tǒng)
NaturalSpeech 是一個(gè)完全端到端的文本到語(yǔ)音波形生成系統(tǒng)(見(jiàn)圖1),能夠彌合合成語(yǔ)音與真人聲音之間的質(zhì)量差距。具體而言,該系統(tǒng)利用變分自編碼器(Variational Auto-Encoder, VAE),將高維語(yǔ)音 (x) 壓縮成連續(xù)的幀級(jí)表達(dá) z(記作后驗(yàn) q(z|x)),用于對(duì)語(yǔ)音波形 x(記作 p(x|z))的重構(gòu)。相應(yīng)的先驗(yàn)(記作 p(z|y))則從文本序列 y 中獲取。
圖1:NaturalSpeech 系統(tǒng)概覽
考慮到來(lái)自語(yǔ)音的后驗(yàn)比來(lái)自文本的先驗(yàn)更加復(fù)雜,研究員們?cè)O(shè)計(jì)了幾個(gè)模塊(見(jiàn)圖2),盡可能近似地對(duì)后驗(yàn)和先驗(yàn)進(jìn)行匹配,從而通過(guò)y→p(z|y)→p(x|z)→x實(shí)現(xiàn)文本到語(yǔ)音的合成。
在音素編碼器上利用大規(guī)模音素預(yù)訓(xùn)練(phoneme pre-training),從音素序列中提取更好的表達(dá)。
利用由時(shí)長(zhǎng)預(yù)測(cè)器和上采樣層組成的完全可微分的時(shí)長(zhǎng)模塊(durator),來(lái)改進(jìn)音素的時(shí)長(zhǎng)建模。
基于流模型(flow)的雙向先驗(yàn)/后驗(yàn)?zāi)K(bidirectional prior/posterior),可以進(jìn)一步增強(qiáng)先驗(yàn) p(z|y) 以及降低后驗(yàn) q(z|x) 的復(fù)雜性。
基于記憶的變分自編碼器(Memory VAE),可降低重建波形所需的后驗(yàn)復(fù)雜性。
圖2:NaturalSpeech 關(guān)鍵模塊
據(jù)微軟亞洲研究院主管研究員譚旭介紹,與之前的 TTS 系統(tǒng)相比,NaturalSpeech 有以下幾大優(yōu)勢(shì):
1)減少訓(xùn)練和推理的不匹配。先前的級(jí)聯(lián)聲學(xué)模型/聲碼器系統(tǒng)和顯式時(shí)長(zhǎng)預(yù)測(cè)都受到了訓(xùn)練推理不匹配的影響。其原因在于聲碼器使用了真實(shí)的梅爾譜以及梅爾譜編碼器使用了真實(shí)的時(shí)長(zhǎng),而推理中使用了相應(yīng)的預(yù)測(cè)值。NaturalSpeech 完全端到端文本到波形的生成以及可微時(shí)長(zhǎng)模塊,則能夠避免訓(xùn)練推理的不匹配。
2)緩解了一對(duì)多的映射問(wèn)題。一個(gè)文本序列可以對(duì)應(yīng)多個(gè)不同的語(yǔ)音表達(dá),例如音高、持續(xù)時(shí)間、速度、停頓、韻律等方面的變化。以往的研究?jī)H額外預(yù)測(cè)音高/時(shí)長(zhǎng),并不能很好地處理一對(duì)多的映射問(wèn)題。NaturalSpeech 中基于記憶的 VAE 和雙向先驗(yàn)/后驗(yàn)則能降低后驗(yàn)的復(fù)雜性并增強(qiáng)先驗(yàn),有助于緩解一對(duì)多的映射問(wèn)題。
3)提高表達(dá)能力。此前的 TTS 模型往往不足以從音素序列中提取良好的表達(dá)以及學(xué)習(xí)語(yǔ)音中復(fù)雜的數(shù)據(jù)分布。NaturalSpeech 通過(guò)大規(guī)模音素預(yù)訓(xùn)練、帶有記憶機(jī)制的 VAE、強(qiáng)大的生成模型(如Flow/VAE/GAN)可以學(xué)習(xí)更好的文本表達(dá)和語(yǔ)音數(shù)據(jù)分布。
權(quán)威評(píng)測(cè)結(jié)果顯示:NaturalSpeech合成語(yǔ)音與真人聲音不相伯仲
此前的工作通常采用“平均意見(jiàn)分”(Mean Opinion Score, MOS)來(lái)衡量 TTS 質(zhì)量。在 MOS 評(píng)測(cè)中,參與者通過(guò)聽(tīng)取真人說(shuō)話錄音和 TTS 的合成語(yǔ)音,分別對(duì)兩種聲音的特征進(jìn)行五分制評(píng)分,包括聲音質(zhì)量、發(fā)音、語(yǔ)速和清晰度等。但是 MOS 對(duì)于區(qū)分聲音質(zhì)量的差異不是非常敏感,因?yàn)閰⑴c者只是對(duì)兩個(gè)系統(tǒng)的每條句子單獨(dú)打分,沒(méi)有兩兩互相比較。而 CMOS(Comparative MOS)在評(píng)測(cè)過(guò)程中可以對(duì)兩個(gè)系統(tǒng)的句子兩兩對(duì)比并排打分,并且使用七分制來(lái)衡量差異,所以對(duì)質(zhì)量差異更加敏感。
因此,在評(píng)測(cè) NaturalSpeech 系統(tǒng)和真實(shí)錄音的質(zhì)量時(shí),研究員們同時(shí)進(jìn)行了 MOS 和 CMOS 兩種測(cè)試(結(jié)果如表1和2所示)。在廣泛采用的 LJSpeech 數(shù)據(jù)集上的實(shí)驗(yàn)評(píng)估表明,NaturalSpeech 在語(yǔ)句級(jí)別與真人錄音的對(duì)比上實(shí)現(xiàn)了-0.01 CMOS,在 Wilcoxon 符號(hào)秩檢驗(yàn)中實(shí)現(xiàn)了 p>>0.05。這表明在這一數(shù)據(jù)集上,NaturalSpeech 首次與真人錄音無(wú)統(tǒng)計(jì)學(xué)意義上的顯著差異。這個(gè)成績(jī)遠(yuǎn)高于此前在 LJSpeech 數(shù)據(jù)集上測(cè)試的其它 TTS 系統(tǒng)。
表1:NaturalSpeech 和真人錄音之間的 MOS 比較,使用 Wilcoxon 秩和檢驗(yàn)(Wilcoxon rank sum)來(lái)度量 MOS 評(píng)估中的 p 值。
表2:NaturalSpeech 和真人錄音之間的 CMOS 比較,使用 Wilcoxon 符號(hào)秩檢驗(yàn)(Wilcoxon signed rank test)來(lái)度量 CMOS 評(píng)估中的 p 值。
下面分別展示 NaturalSpeech 合成的語(yǔ)音和對(duì)應(yīng)的真人錄音:
內(nèi)容1:Maltby and Co. would issue warrants on them deliverable to the importer, and the goods were then passed to be stored in neighboring warehouses.
NaturalSpeech合成語(yǔ)音1音頻:00:0000:08真人錄音1音頻:00:0000:08
內(nèi)容2:who had borne the Queen's commission, first as cornet, and then lieutenant, in the 10th Hussars.
NaturalSpeech合成語(yǔ)音2音頻:00:0000:06真人錄音2音頻:00:0000:07
了解更多技術(shù)細(xì)節(jié),請(qǐng)參閱 NaturalSpeech 論文和 GitHub 主頁(yè):
NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
https://arxiv.org/pdf/2205.04421.pdf
NaturalSpeech GitHub 主頁(yè):
https://speechresearch.github.io/naturalspeech/
TTS發(fā)展道阻且長(zhǎng),需要業(yè)界共同打造負(fù)責(zé)任的AI
在微軟 Azure 認(rèn)知服務(wù)語(yǔ)音首席研發(fā)總監(jiān)趙晟看來(lái),NaturalSpeech 系統(tǒng)首次達(dá)到了與真人錄音沒(méi)有顯著差異的效果,是 TTS 研究上的一個(gè)新的里程碑。從長(zhǎng)遠(yuǎn)角度來(lái)講,雖然借助新模型能夠?qū)崿F(xiàn)更高質(zhì)量的合成語(yǔ)音,但這并不意味著徹底解決了 TTS 所面臨的問(wèn)題。目前,TTS 仍然存在很多具有挑戰(zhàn)性的場(chǎng)景,如充滿情感的語(yǔ)音、長(zhǎng)篇朗誦、即興表演的語(yǔ)音等,這些都需要更先進(jìn)的建模技術(shù)來(lái)模擬真人語(yǔ)音的表現(xiàn)力和多變性。
隨著合成語(yǔ)音質(zhì)量的不斷提升,確保 TTS 能被人們信賴是一個(gè)需要攻堅(jiān)的問(wèn)題。微軟主動(dòng)采取了一系列措施來(lái)預(yù)判和降低包括 TTS 在內(nèi)的人工智能技術(shù)所帶來(lái)的風(fēng)險(xiǎn)。微軟致力于依照以人為本的倫理原則推進(jìn)人工智能的發(fā)展,早在2018年就發(fā)布了“公平、包容、可靠與安全、透明、隱私與保障、負(fù)責(zé)”6個(gè)負(fù)責(zé)任的人工智能原則(Responsible AI Principles),隨后又發(fā)布負(fù)責(zé)任的人工智能標(biāo)準(zhǔn)(Responsible AI Standards)將各項(xiàng)原則實(shí)施落地,并設(shè)置了治理架構(gòu)確保各團(tuán)隊(duì)把各項(xiàng)原則和標(biāo)準(zhǔn)落實(shí)到日常工作中。我們正在與全球的研究人員和學(xué)術(shù)機(jī)構(gòu)合作,繼續(xù)推進(jìn)負(fù)責(zé)任的人工智能的實(shí)踐和技術(shù)。
Azure AI Neural TTS的更多功能和聲音等你來(lái)探索
Azure AI Neural TTS 目前共提供340多種聲音,支持120多個(gè)語(yǔ)種和方言。此外,Neural TTS 還能幫助企業(yè)以多種語(yǔ)言和風(fēng)格,打造專屬的品牌聲音?,F(xiàn)在,用戶可以通過(guò) Neural TTS 試用版來(lái)探索更多功能和特色聲音。
相關(guān)鏈接:
微軟 Azure 認(rèn)知服務(wù) TTS
https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/
微軟亞洲研究院語(yǔ)音相關(guān)研究
https://speechresearch.github.io/
微軟開(kāi)源語(yǔ)音研究項(xiàng)目 NeuralSpeech
https://github.com/microsoft/neuralspeech
NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
https://arxiv.org/abs/2205.04421
- Responsible AI principles from Microsofthttps://www.microsoft.com/en-us/ai/responsible-ai
- Our approach to responsible AI at Microsofthttps://www.microsoft.com/en-us/ai/our-approach
- The building blocks of Microsoft’s responsible AI programhttps://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。