微軟翻譯突破百種語言和方言大關(guān)
編者按:“ ??????? ???、?? ????、???????????? 、?????????”,你知道這句話里有幾種語言,它們又是什么意思么?其實這只是我國少數(shù)民族語言的一部分,依次為維吾爾語、蒙古語、哈薩克語和藏語的“你好”之意。這類文字我們在旅行中也時常能見到,比如,故宮里就有不少牌匾上有漢文、滿文和蒙文,只因大家看不懂,而常常被忽略。近日,微軟翻譯再添12種新語言和方言,其中就包括由微軟亞洲研究院提供技術(shù)支持的維語、 蒙語、藏語、土庫曼語、烏茲別克語等。目前,微軟翻譯共支持103種語言,讓你輕松實現(xiàn)跨國、跨地區(qū)交流無障礙。
近日,微軟 Azure 認(rèn)知服務(wù)翻譯的語言列表又添加了12種全新的語種和方言,微軟翻譯可以提供翻譯支持的語言總數(shù)已達(dá)103種!
新增語言的母語使用者合計達(dá)8,460萬人,包括巴什基爾語、迪維希語、格魯吉亞語、吉爾吉斯語、馬其頓語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、韃靼語、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字)。微軟亞洲研究院為其中的七種語言和方言——迪維希語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字),提供了核心技術(shù)支持。目前最新版的微軟翻譯可以在全球56.6億人所使用的不同母語之間實現(xiàn)文本文檔的互譯。
打破語言障礙:實現(xiàn)100+語言翻譯的自由
微軟翻譯的核心使命是打破人與人之間的文化和語言障礙。為實現(xiàn)這一目標(biāo),微軟的研究員們不斷為這項服務(wù)增添新的語種和方言,同時確保所支持語言的機器翻譯達(dá)到并超過我們設(shè)置的高質(zhì)量標(biāo)準(zhǔn)。
微軟研究院在20多年前首次開發(fā)出了機器翻譯系統(tǒng)。2003年,該機器翻譯系統(tǒng)將整個微軟知識庫(Microsoft Knowledge Base)從英文翻譯成了西班牙文、法文、德文、日文,并在微軟網(wǎng)站上發(fā)布了譯文版,使之成為當(dāng)時互聯(lián)網(wǎng)上規(guī)模最大、面向公眾開放的初始機器翻譯應(yīng)用。
此后,微軟以統(tǒng)計機器翻譯(SMT)模型為基礎(chǔ),對系統(tǒng)做了進一步改良,并通過 Windows Live Translator、Translator API 以及作為微軟 Office 應(yīng)用程序的內(nèi)置功能,向用戶提供翻譯服務(wù)。
多年來,微軟已將世界上諸多常用的語言和方言添加到了微軟翻譯的系統(tǒng)中。而隨著人工智能技術(shù)的發(fā)展,微軟研究院開始采用神經(jīng)機器翻譯(NMT)技術(shù),將所有機器翻譯系統(tǒng)遷移到了基于 Transformer 架構(gòu)的神經(jīng)模型上,因此翻譯的流暢度和準(zhǔn)確性獲得了大幅提升。
引入 Transformer 架構(gòu)的 NMT 技術(shù),不僅可以利用包括單語語料數(shù)據(jù)在內(nèi)的更多數(shù)據(jù)來訓(xùn)練超大模型,提升翻譯的整體質(zhì)量,也為構(gòu)建機器翻譯模型開辟了新的路徑,讓模型可以借助比先前更少的數(shù)據(jù)來進行訓(xùn)練。多語言的 Transformer 架構(gòu)可以利用來自其他語言(通常屬于相同或相關(guān)的語系)的資料擴充訓(xùn)練數(shù)據(jù),為低資源語言構(gòu)建翻譯模型。
當(dāng)全部技術(shù)都已準(zhǔn)備就緒的同時,機器翻譯系統(tǒng)還必須要有一套數(shù)字化的并行文檔,其中包括目標(biāo)語言版本的文檔,以及另一種已納入翻譯服務(wù)的語言的翻譯版文檔。但對于很多小語種來說,這些并行文檔中的平行語料很難獲得。幸運的是,微軟通過與語言社區(qū)的合作伙伴展開合作,可以獲取人工翻譯的文本,收集低資源語言的數(shù)據(jù)。這些社區(qū)伙伴通常是在各自社區(qū)任職的志愿者,他們通過咨詢社區(qū)成員和長者,不辭勞苦地收集雙語詞句。與社區(qū)合作伙伴的接觸始于2010年,當(dāng)時微軟與社區(qū)負(fù)責(zé)災(zāi)難響應(yīng)的人員合作,在海地發(fā)生毀滅性地震后短短10天內(nèi),就為海地克里奧爾語構(gòu)建了一個翻譯系統(tǒng)。從那時起,越來越多的社區(qū)伙伴加入了社群,幫助微軟創(chuàng)建了多個語言系統(tǒng),例如苗族語、烏爾都語、瑪雅語、毛利語和因紐特語等等。
盡管如此,缺少足夠的平行語料依然是小語種語言翻譯的最大難點。多年來,微軟亞洲研究院承擔(dān)了多個小語種語言和方言的模型構(gòu)建工作,將新技術(shù)融入其中,幫助解決語料問題。微軟亞洲研究院首席研究員秦濤表示,“基于源語言和目標(biāo)語言的平行語料及單語語料,我們在訓(xùn)練階段將多語言模型與 MASS 預(yù)訓(xùn)練模型相結(jié)合,同時再利用相關(guān)大語種的豐富語料及單語語料來提升模型的翻譯質(zhì)量?!?/p>
圖 1:2016年,微軟利用神經(jīng)機器翻譯(NMT)技術(shù)提高了翻譯質(zhì)量,2019年,微軟采用 Transformer 架構(gòu)為低資源語言構(gòu)建了模型
Azure 認(rèn)知服務(wù)翻譯工具的技術(shù)能力
Azure 認(rèn)知服務(wù)中的翻譯工具由微軟翻譯提供支持,旨在幫助企業(yè)擴大其全球影響力,讓他們能夠快速、可靠并以合理的成本跨越語言障礙,用客戶的母語與之進行合作、交流并提供內(nèi)容服務(wù)。當(dāng)然,這項服務(wù)還能幫助企業(yè)內(nèi)部來自不同國家的員工在溝通時打破語言障礙。
Azure 認(rèn)知服務(wù)翻譯工具將 NMT 模型納入微軟產(chǎn)品中,通過文本翻譯和文檔翻譯 API,為用戶提供服務(wù),將純文本和復(fù)雜的文檔從一種語言翻譯成另一種語言。Azure 認(rèn)知服務(wù)翻譯工具還包含自定義翻譯服務(wù),該服務(wù)允許用戶使用自備翻譯存儲器構(gòu)建自定義的機器翻譯模型,用于翻譯他們在各自業(yè)務(wù)及相關(guān)領(lǐng)域中所使用的特定術(shù)語。用戶可以通過文本和文檔翻譯 API 使用這些自定義機器翻譯模型。為了實現(xiàn)音頻或語音內(nèi)容的翻譯,Azure 認(rèn)知服務(wù)的翻譯工具和語音工具緊密集成,并通過 Azure 語音 SDK 為語音翻譯和多設(shè)備對話提供支持。
Azure 認(rèn)知服務(wù)翻譯工具及其支持的產(chǎn)品被用戶廣泛采用,用于網(wǎng)站內(nèi)容和 App 的本地化、為業(yè)務(wù)分析的對話和內(nèi)容及法證調(diào)查的內(nèi)容提供翻譯等諸多應(yīng)用場景。該服務(wù)還無縫集成到微軟的許多產(chǎn)品中,每個人都可以隨時通過他們所選擇的語言來使用和創(chuàng)建內(nèi)容。集成了翻譯服務(wù)的微軟產(chǎn)品包括 Microsoft 365 中的文本和文檔翻譯、微軟 Edge 瀏覽器中的網(wǎng)頁翻譯、SwiftKey 中的消息翻譯、LinkedIn 中的用戶提交內(nèi)容翻譯、微軟翻譯 App 中的多語言對話翻譯等等。
消除語言障礙是承諾,但仍任重道遠(yuǎn)
如果一個人并不能掌握承載特定信息的語言,那么技術(shù)如何才能幫助他獲取信息呢?在一個不斷縮小的世界中,人們又將如何更了解和欣賞彼此的文化?語言障礙阻礙了人們獲取某些重要信息,而這也是促使微軟致力于打破這些障礙的動因之一。將文本、文檔、語音和圖像從一種語言翻譯成另一種語言,將為實現(xiàn)這一目標(biāo)發(fā)揮重要作用。
微軟亞洲研究院高級研究員張冬冬認(rèn)為,“語言作為文化的載體,其翻譯任務(wù)一方面促進了各種文化的交流,另一方面也在保護、復(fù)原那些正在消失或已經(jīng)消失的語言中所蘊含的人類知識、智慧文明。我們除了不斷提升主流語言機器翻譯質(zhì)量讓其接近人工翻譯水平外,同時也在考慮低資源和零資源語言的翻譯問題。機器翻譯技術(shù)是解決跨國家、跨地區(qū)、跨民族無障礙交流、文化傳承等問題的重要手段。”
事實上,當(dāng)翻譯語言覆蓋面達(dá)到世界語言總數(shù)的百分之一時,微軟就已經(jīng)為全球72%的人口打破了語言障礙。微軟的科研和技術(shù)人員在感到自豪的同時,也將以謙卑的態(tài)度繼續(xù)語言翻譯的探索與研究。未來,微軟將繼續(xù)滿懷激情地改進服務(wù)和解決方案,提升質(zhì)量,讓每個人都能獲取來自世界各地的內(nèi)容,消除語言差異帶來的分歧,同時保持對文化、傳統(tǒng)和歸屬感的尊重。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。