云鹤 · 2022年07月19日

三角迁移:助推以中文为中心的机器翻译

机器翻译的成功仰赖大规模的平行语料,而平行语料里英文的高比例造就了以英文为中心的机器翻译服务现状。其他语言之间的互译如何破局?三角翻译可能是一个答案。华为诺亚方舟实验室发表于ACL 2022的论文《Triangular Transfer: Freezing the Pivot for Triangular Machine Translation》提出了一种基于迁移学习的三角翻译方案:三角迁移,首次将桥接语言作为共享空间以提升迁移效果,该方案利用了三角翻译涉及的所有语料,显著提升了翻译质量,助力实现以中文为中心的机器翻译。

论文地址:https://arxiv.org/abs/2203.09027

image.png

图1 三角迁移示意图。

背景

在机器翻译中,如果两种语言之间的平行语料稀缺,这种情况称为低资源。不过,低资源也分多种类型。其中有一种情况是,两种语言都跟第三种语言(称为桥接语言或枢轴语言)之间有着丰富的平行语料。例如,中文和德文之间的平行语料较少,但它们与英文之间的平行语料都很多,如图2所示。这种情况构成了一个三角形,因此被称为三角翻译。

image.png

图2 三角翻译示意图。

三角翻译在低资源场景中值得重点关注,主要有以下几点原因:

1. 源语言和目标语言都跟桥接语言之间有着丰富的平行语料,意味着它们都是比较大的语种,使用者较多,有着较大的翻译需求。

2. 大量辅助平行语料的存在,使得三角翻译有望取得较为令人满意的翻译质量,从而实现落地应用。

3. 当前,英文在平行语料的分布中占据核心地位,从而造成了以英文为中心的机器翻译服务现状;三角翻译对于实现更为公平、均衡的机器翻译服务具有重要意义。

三角翻译有一种简单的实现方法,即桥接翻译:利用源语言-桥接语言和桥接语言-目标语言这两个翻译模型,执行两步翻译。桥接翻译有两个主要的缺点。一个在翻译质量上:错误传播的存在,以及无法利用源语言和目标语言之间的平行语料,影响了桥接翻译的质量;另一个在翻译延迟上:由于需要两步翻译,桥接翻译的延迟需要翻倍。 

方案

本文提出了一种针对三角翻译设计的迁移学习方法,叫作三角迁移(Triangular Transfer)。该方法利用了三角翻译涉及的所有语料,包括源语言和目标语言之间的平行语料、它们与桥接语言之间的平行语料、这三种语言的单语语料,以实现最终翻译质量的提升。表1比较了该方法与其他方法在语料利用上的对比。同时,由于基于迁移学习,该方法在模型部署上与普通翻译模型相同,因此不影响翻译延迟。

image.png

表1 各种方法的语料利用情况。X、Y、Z分别代表源语言、目标语言、桥接语言。

三角迁移的示意图如文章开头的图1所示,图中以中到德翻译为例。该方法分为4个步骤:

1. 利用英文单语语料训练一个英文BART预训练语言模型。我们希望后续的模型都在该模型定义的空间中进行计算。

2. 利用中文、德文单语语料分别训练中文、德文BART。词向量以外的参数由英文BART初始化并固定,从而使词向量训练到英文BART的空间中。

3. 利用中英、英德平行语料训练翻译模型。翻译模型的组件由前面的BART模型初始化,并且英文侧的词向量(或更多)参数固定,使得翻译模型在训练时不至于偏离前面的英文空间。

4. 将上一步两个翻译模型中的中文编码器和德文解码器拼合,利用中德平行语料进行训练,得到最终的中德翻译模型。

可见,上述方案的设计通过参数的初始化和固定策略,实现了以桥接语言作为各语言的共享空间,从而使得最后一步源语言编码器和目标语言解码器拼合时能够顺利地配合。文中还讨论并对比了不同的参数固定策略带来的影响。

实验结果与总结

在实验中,三角迁移取得了比各种基线系统更好的效果,包括桥接翻译。表2展示了法到德的翻译实验结果,可见三角迁移比桥接翻译提升了约1 BLEU。此外,文中还报告了中到德的翻译实验结果,相比桥接翻译提升了约3 BLEU。

image.png

表2 法到德的翻译实验结果。

总结来说,本文提出的三角迁移能够利用三角翻译涉及的所有辅助语料进行迁移学习,通过设计辅助模型的初始化和参数固定,使得迁移学习能够顺利有效地进行,实现了最终翻译质量的改善。


【免责声明】

华为在本公众号所载的材料和信息,包括但不限于文本、图片、数据、观点、建议、网页或链接,虽然华为力图在网站平台上提供准确的材料和信息,但华为并不保证这些材料和内容的准确、完整、充分和可靠性,并且明确声明不对这些材料和内容的错误或遗漏承担责任,也不对这些材料和内容作出任何明示或默示的、包括但不限于有关所有权担保、没有侵犯第三方权利、质量和没有计算机病毒的保证。

华为可以在没有任何通知或提示的情况下随时对网站上的内容进行修改,为了得到最新版本的信息,请您定时访问本网站。华为(含其关联公司)在本网站上所提及的非华为产品或服务仅仅是为了提供相关信息,并不构成对这些产品、服务的认可或推荐。华为并不就网址上提供的任何产品、服务或信息做出任何声明、保证或认可,所有销售的产品和服务应受华为的销售合同和条款的约束。


—  —

作者:诺亚方舟实验室
文章来源:诺亚实验室

推荐阅读
TPAMI 2022综述 | 视觉Transformer系统性测评及未来方向探讨
[[悟空] 华为诺亚开源首个大规模中文多模态数据,一亿图文对,包含基础大模型](https://aijishu.com/a/1060000...)

更多嵌入式AI相关技术干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
1854
内容数
25
深度模型压缩、加速、自动搜索。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息