ACL 2022 | 一口氣翻兩千詞,字節(jié)AI Lab提出篇章到篇章的機(jī)器翻譯新思路
一會(huì)兒「夢(mèng)露」,一會(huì)兒「門羅」,如何幫機(jī)器翻譯改掉這類低級(jí)錯(cuò)誤?
大家都聽過大名鼎鼎的圖靈測(cè)試。近年來取得巨大進(jìn)步的機(jī)器翻譯在眾多場(chǎng)景下都取得了媲美人類的成績(jī)[1],許多人驚呼,機(jī)器翻譯能成功「騙」過人類了。但如果深入研究,就能發(fā)現(xiàn)機(jī)器翻譯在一些特殊的場(chǎng)景下,仍然有些肉眼可見的瑕疵。篇章級(jí)翻譯就是一個(gè)典型的場(chǎng)景。
人類在翻譯的過程中會(huì)保持上下文一致,比如翻譯英文名「Monroe」,不會(huì)一會(huì)兒翻譯成「夢(mèng)露」,一會(huì)兒翻譯成「門羅」,但許多商用機(jī)器翻譯仍然會(huì)犯這種「低級(jí)錯(cuò)誤」。
如何在篇章翻譯的過程中保持上下文的一致性,讓機(jī)器表現(xiàn)得更像人類,是機(jī)器翻譯的一個(gè)重要課題。今天就為大家介紹一篇由字節(jié)跳動(dòng) AI-Lab 火山翻譯團(tuán)隊(duì)、南京大學(xué)與加州圣塔芭芭拉分校共同發(fā)表在 ACL 2022 的長(zhǎng)文 —— Rethinking Document-level Neural Machine Translation。
這篇論文重新審視了篇章機(jī)器翻譯領(lǐng)域的過往工作,針對(duì)當(dāng)下流行的研究趨勢(shì)進(jìn)行了反思,并提出回歸到經(jīng)典簡(jiǎn)潔的 Transformer 模型解決篇章翻譯問題,通過多分解度的訓(xùn)練方案取得了 SOTA 的效果。最后,這篇文章也貢獻(xiàn)了一份新的數(shù)據(jù)集,旨在推動(dòng)整個(gè)領(lǐng)域的發(fā)展。
論文地址:https://arxiv.org/abs/2010.08961代碼地址:https://github.com/sunzewei2715/Doc2Doc_NMT
研究背景
在機(jī)器翻譯的任務(wù)中,段落、文檔等連續(xù)片段的翻譯是非常重要的場(chǎng)景,諸如新聞翻譯、小說翻譯、電影字幕翻譯等等。我們將其統(tǒng)稱為篇章級(jí)別的機(jī)器翻譯(Document-level Machine Translation)。其最重要的特征是翻譯的結(jié)果需要考慮到上下文的信息,保持行文的一致性與前后呼應(yīng)。
而當(dāng)前的機(jī)器翻譯模型主要以句子作為翻譯的基本單位,逐句逐句地進(jìn)行翻譯。這類方法的問題顯而易見:無法有效捕捉到上下文的信息,在翻譯的過程中容易出現(xiàn)與上下文不一致、引用錯(cuò)誤等問題,如下面這個(gè)例子:
可見,將神經(jīng)機(jī)器翻譯針對(duì)篇章級(jí)別的翻譯 (Document-level Neural Machine Translation, 下稱 DNMT) 進(jìn)行針對(duì)性的改進(jìn)是一項(xiàng)重要任務(wù)。
對(duì)過去工作的重新審視
以往有許多工作對(duì) DNMT 做出了改進(jìn),但也遭受了部分質(zhì)疑[2,3,4]。研究者也發(fā)現(xiàn),以往工作取得的提升在某種程度上僅僅歸功于在小數(shù)據(jù)集上的過擬合。
篇章翻譯最常用的數(shù)據(jù)集是 News Commentary 與 TED Talks。這兩份數(shù)據(jù)集僅包含大概 20 萬句對(duì),不到 1 萬篇文檔,而且測(cè)試集與訓(xùn)練集分布高度類似,有很高的過擬合的嫌疑。甚至有些工作 [5,6,7] 對(duì)句級(jí)別模型設(shè)定 dropout=0.1,篇章級(jí)別模型設(shè)定 dropout=0.2,并在此基礎(chǔ)上宣稱取得了提升。而其中可能潛在的正則化與過擬合的問題未被真正探討過。
為了驗(yàn)證猜想,研究者僅調(diào)整超參數(shù)(dropout),在句級(jí)別模型上做了若干組實(shí)驗(yàn),如表 1 所示:
表 1:句級(jí)別模型不同超參的實(shí)驗(yàn)結(jié)果
令人震驚的是,研究者發(fā)現(xiàn),簡(jiǎn)單地增大 dropout 就能幾乎填平所有以往工作帶來的提升。如在 TED 數(shù)據(jù)集上,僅是 dropout=0.2 就能讓以往工作的提升失去顯著性,dropout=0.3 更是超過了所有以往的工作。
這個(gè)初步的實(shí)驗(yàn)證實(shí),以往的工作缺乏跟堅(jiān)實(shí) baseline 的對(duì)比,單純?cè)黾幽P蛥?shù)(如額外的 encoder)帶來的提升很有可能來自小數(shù)據(jù)集上的過擬合。其他工作也提出了類似的質(zhì)疑[2,3,4]。
因此,研究者認(rèn)為,當(dāng)前以增加額外模型參數(shù)或單元的 DNMT 研究趨勢(shì)需要被重新審視。與之對(duì)應(yīng)的,他們重新回到最原始而簡(jiǎn)潔的 Transformer 框架,用端到端的訓(xùn)練方式研究篇章翻譯。
篇章到篇章的端到端翻譯
本節(jié)將介紹一種新的篇章級(jí)別神經(jīng)機(jī)器翻譯的方法:「篇章到篇章」(Doc2Doc)的翻譯。
首先,我們需要定義這個(gè)任務(wù):令表示一個(gè)包含M句話的源端篇章,篇章翻譯的目標(biāo)是將從語(yǔ)言翻譯到語(yǔ)言,其中表示第句話的長(zhǎng)度。
過往的「篇章到句子」的翻譯方法依舊是逐句的翻譯:
是源端的上下文信息,一般包含兩到三句歷史的句子,也是大多數(shù)工作的重點(diǎn)。是目標(biāo)端的上下文信息,有部分工作進(jìn)行了有限的利用,諸如 100 個(gè)單詞等。
區(qū)別于「篇章到句子」的翻譯,字節(jié) AI Lab 的研究者提出了一項(xiàng)新的訓(xùn)練方式——「篇章到篇章」的翻譯。將整篇文檔作為一個(gè)完整的序列送入模型中:
其中是源端的完整序列信息,是目標(biāo)端的歷史信息。
「篇章到句子」翻譯的缺陷
第一,「篇章到句子」的翻譯并未利用完整的源端信息。嚴(yán)格來說,所謂「篇章到句子」的翻譯僅僅是「幾句話到句子」。因?yàn)榇蟛糠止ぷ鲀H僅利用了前兩三句的句子。然而,更多的上下文信息應(yīng)該能提升翻譯質(zhì)量。
第二,「篇章到句子」的翻譯并未利用完整的目標(biāo)端信息。大部分以往的工作基本沒有利用到目標(biāo)端的歷史信息。然而,如果跨句子級(jí)別的語(yǔ)言模型沒有被利用起來,就會(huì)產(chǎn)生諸如時(shí)態(tài)錯(cuò)位等不一致問題。
第三,「篇章到句子」的翻譯限制了訓(xùn)練的場(chǎng)景。過往的工作聚焦于改進(jìn)模型結(jié)構(gòu)來引入連續(xù)的上下文信息。因此,模型的入口只能供連續(xù)的句子進(jìn)入,導(dǎo)致大量碎片化的句子級(jí)別的平行語(yǔ)料無法被利用。
第四,「篇章到句子」的翻譯不可避免地引入了額外的參數(shù),并使得模型結(jié)構(gòu)變得復(fù)雜和難以推廣。
與上述對(duì)應(yīng)的,「篇章到篇章」的翻譯利用了完整的源端與目標(biāo)端信息,可以使用任意的平行語(yǔ)料,且不引入任何的額外參數(shù),具有較明顯的優(yōu)勢(shì)。
多分解度篇章到篇章的翻譯
雖然篇章到篇章的翻譯具有多項(xiàng)優(yōu)點(diǎn),這項(xiàng)方式并未得到廣泛的使用。有工作甚至報(bào)告了負(fù)面的實(shí)驗(yàn)結(jié)果[8,9]。在本文中,研究者將直接的篇章到篇章翻譯記為單分解度篇章到篇章翻譯(Single-Resolutional Doc2Doc, SR Doc2Doc)。
他們發(fā)現(xiàn),只要借用多分解度篇章到篇章(Multi-resolutional Doc2Doc, MR Doc2Doc)的訓(xùn)練方式,即把篇章同較短的段落、句子一起混合訓(xùn)練,篇章到篇章的翻譯能被很好地激活。具體地,他們將篇章多次平均分成k份,。舉例來說,一篇含有 8 個(gè)句子的篇章,我們將其分解為 2 份 4 句的序列、4 份 2 句的序列、8 份 1 句的序列,并將這 15 個(gè)序列統(tǒng)一送入模型進(jìn)行訓(xùn)練。
用這種訓(xùn)練方式,模型能翻譯超過 2000 詞的長(zhǎng)序列(即篇章),而且依舊能對(duì)幾十個(gè)詞的短序列(即句子)進(jìn)行翻譯。
實(shí)驗(yàn)結(jié)果
研究者采用與以往工作相同的設(shè)置(具體配置可參見原始論文),利用 Transformer Base 模型進(jìn)行實(shí)驗(yàn),使用數(shù)據(jù)如表 2 所示:
表 2:本工作所使用的數(shù)據(jù)集
實(shí)驗(yàn)結(jié)果如表 3 所示:
表 3:實(shí)驗(yàn)結(jié)果
多分解度篇章到篇章翻譯提升了性能
從表 3 的上半部分可以看到,單分解度篇章到篇章 (SR Doc2Doc) 的訓(xùn)練的確降低了翻譯質(zhì)量。但利用多分解度篇章到篇章 (MR Doc2Doc) 的訓(xùn)練,可以得到最好的結(jié)果。值得注意的是,這一提升無需增加任何額外的參數(shù)。
額外的句子級(jí)別語(yǔ)料能幫助翻譯
更進(jìn)一步,研究者引入了額外的句子級(jí)別的平行語(yǔ)料,如表 3 的下半部分所示,一方面,單分解度篇章到篇章的訓(xùn)練被激活并達(dá)到了與句子到句子訓(xùn)練相接近的水平。另一方面,多分解度篇章到篇章的訓(xùn)練取得了最好的結(jié)果并拉大了與基線的差距。
如上文所分析,句子級(jí)別的語(yǔ)料難以被以往的篇章到句子的模型所利用。然而篇章到篇章的訓(xùn)練能非常自然地使用。考慮到句子級(jí)別的語(yǔ)料數(shù)量遠(yuǎn)大于篇章級(jí)別的語(yǔ)料,多分解度篇章到篇章的訓(xùn)練具有很大的潛力。
更進(jìn)一步的分析
上下文一致性的提升
除 BLEU 外,研究者也證實(shí)了多分解度篇章到篇章的訓(xùn)練也能提升篇章翻譯在具體語(yǔ)言學(xué)指標(biāo)中的上下文一致性,如表 4 所示。
表 4:篇章到篇章翻譯在翻譯一致性上的提升
上下文敏感性
為了測(cè)試模型是否有效利用上下文而非忽略上下文,他們還設(shè)置了錯(cuò)誤的上下文的實(shí)驗(yàn)組,發(fā)現(xiàn)翻譯質(zhì)量的確下降,如表 5 所示。這項(xiàng)實(shí)驗(yàn)證實(shí)了上下文信息的重要性。
表 5:錯(cuò)誤的上下文帶來翻譯質(zhì)量的下降,說明了上下文的重要性
長(zhǎng)短序列的兼容性
如圖 1 所示,句子到句子的模型擅長(zhǎng)短序列的翻譯卻無法處理長(zhǎng)序列的翻譯,單分解度篇章到篇章的模型擅長(zhǎng)長(zhǎng)序列的翻譯卻做不好短序列的翻譯。而多分解度篇章到篇章的翻譯能很好地處理任意長(zhǎng)度的序列。通過這種訓(xùn)練方式,我們得以用一個(gè)模型處理任意長(zhǎng)的序列。
圖 1:不同模型在不同長(zhǎng)度序列上的表現(xiàn)
新數(shù)據(jù)集與評(píng)測(cè)指標(biāo)
為了更進(jìn)一步地證實(shí)自己的結(jié)論,并推動(dòng)該領(lǐng)域的發(fā)展,研究者還貢獻(xiàn)了一份新的篇章級(jí)別數(shù)據(jù)集和三項(xiàng)專門設(shè)計(jì)的篇章翻譯評(píng)測(cè)指標(biāo)。
平行的篇章級(jí)別語(yǔ)料
他們從互聯(lián)網(wǎng)上爬取了接近 6 萬篇,139 萬句的中文 - 英文平行語(yǔ)料,并將之命名為 PDC (Parallel Document Corpus)。
評(píng)測(cè)指標(biāo)
他們制定了三項(xiàng)評(píng)測(cè)指標(biāo):時(shí)態(tài)一致(Tense Consistency, TC)、連詞譯出(Conjunction Presence, CP)、代詞翻譯(Pronoun Translation, PT),具體可參見原始論文。
測(cè)試集
他們額外從不同于平行語(yǔ)料的出處爬取、利用上述的三項(xiàng)指標(biāo)篩選了 148 篇文檔,并進(jìn)行了人工翻譯。
基準(zhǔn)
實(shí)驗(yàn)結(jié)果如下(++ 表示額外的平行句子級(jí)別語(yǔ)料):
表 6:篇章級(jí)翻譯在我們新的大規(guī)模數(shù)據(jù)集上提升顯著
多分解度篇章到篇章的翻譯不僅在 BLEU 上有所提升,在三項(xiàng)細(xì)粒度指標(biāo)上也有明顯的提升,也與人工評(píng)估有很強(qiáng)的相關(guān)性。
例子分析
即便我們更換不同國(guó)家的總理,也得到類似的結(jié)果:
結(jié)論
在這項(xiàng)工作中,研究者試圖回答這樣一個(gè)問題:用經(jīng)典而簡(jiǎn)潔的 Transformer 模型來端到端地處理篇章級(jí)機(jī)器翻譯是否可行?結(jié)果表明,雖然單純的篇章到篇章翻譯會(huì)失敗,但多分解度的端到端訓(xùn)練能將其激活,并且不引入額外的參數(shù)。一系列包含多項(xiàng)評(píng)測(cè)指標(biāo)的實(shí)驗(yàn)充分論證了多分解度篇章到篇章翻譯的優(yōu)勢(shì),為這個(gè)問題給出了肯定的回答。此外,他們也為這個(gè)領(lǐng)域貢獻(xiàn)了一份值得參考的數(shù)據(jù)集。
參考文獻(xiàn)[1] Hassan, Hany, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018).[2] Kim, Yunsu, Duc Thanh Tran, and Hermann Ney. "When and Why is Document-level Context Useful in Neural Machine Translation?." In DiscoMT. 2019.[3] Jwalapuram, Prathyusha, Barbara Rychalska, Shafiq Joty, and Dominika Basaj. "Can Your Context-Aware MT System Pass the DiP Benchmark Tests?: Evaluation Benchmarks for Discourse Phenomena in Machine Translation." arXiv preprint arXiv:2004.14607 (2020).[4] Li, Bei, Hui Liu, Ziyang Wang, Yufan Jiang, Tong Xiao, Jingbo Zhu, Tongran Liu, and Changliang Li. "Does Multi-Encoder Help? A Case Study on Context-Aware Neural Machine Translation." In ACL. 2020.[5] Maruf, Sameen, André FT Martins, and Gholamreza Haffari. "Selective Attention for Context-aware Neural Machine Translation." In NAACL. 2019.[6] Yang, Zhengxin, Jinchao Zhang, Fandong Meng, Shuhao Gu, Yang Feng, and Jie Zhou. "Enhancing Context Modeling with a Query-Guided Capsule Network for Document-level Translation." In EMNLP-IJCNLP. 2019.[7] Zheng, Zaixiang, Xiang Yue, Shujian Huang, Jiajun Chen, and Alexandra Birch. "Towards making the most of context in neural machine translation." In IJCAI. 2021.[8] Zhang, Jiacheng, Huanbo Luan, Maosong Sun, Feifei Zhai, Jingfang Xu, Min Zhang, and Yang Liu. Improving the Transformer Translation Model with Document-Level Context. In EMNLP. 2018.[9] Liu, Yinhan, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. "Multilingual Denoising Pre-training for Neural Machine Translation." In TACL. 2020.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。