AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型

2月初，AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景，具有重要的研究价值和广阔的应用前景。

近年来，随着人工智能技术在语音、翻译等相关领域的蓬勃发展，语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成，方法简单，但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷，它通过直接建立源语言语音到目标语言文本的映射关系，一步实现跨模态跨语言的翻译，一旦技术成熟，理论上可以让语音翻译更准更快，极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。

如图1所示，语音识别和语音翻译交互示例相比于直接将原始语音作为输入，如果能够动态获取到识别出的文本信息，语音翻译将变得更加容易；而翻译出的结果也有助于同音词识别的消歧，使识别结果更加准确。

因此，论文作者们希望设计一种交互式的模型，让语音识别与语音翻译两个任务可以动态交互学习，实现知识的共享和传递。

二、技术方案

针对上述问题，作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。

如图2所示，论文作者使用基于自注意力机制的Transformer模型作为主框架，语音识别任务和语音翻译解码任务共享同一个编码器，在解码器中加入一个交互注意力机制层，实现两个任务的知识交互和传递。

如图3所示，交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示，后者用于提取另一个任务输出端的特征表示，两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段，两个任务同时优化；在解码阶段，两个任务同步进行。如此，在预测下一个词的过程中既可以用到当前任务的已生成的词语，也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能，论文作者采用了一种wait-k的方法，使得语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多更可靠的文本信息作为辅助。

三、实验结果

目前语音翻译数据十分匮乏且质量不高，为此论文作者构建了一个新的语音翻译数据集，数据来自TED网站视频和字幕文件，包含语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言，前两种属于较为相似的语言对，后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。论文作者与多个强基线模型进行了对比，包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline)，在语音识别语料上进行预训练的端到端语音翻译模型(E2E)，语音识别和语音翻译共享编码器的多任务模型(Multi-task)，以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示，第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下，基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。在相似的语言对上基于交互式解码的模型可以超越级联系统，在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

为了进一步提升语音翻译的性能，论文作者让语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出，虽然延迟词语会轻微影响识别任务的表现，但是语音翻译任务的性能可以得到提升。

论文中也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出，论文中的模型较好地平衡了参数量和解码速率，相比级联系统，参数量获得的大幅降低；训练和解码速率显著低于两阶段模型；虽然解码速率略低于预训练端到端模型和多任务模型，但是论文中的方法可以实现两个任务的同步解码。

这篇论文也是百度翻译团队在端到端语音翻译领域的持续性研究成果，相比于之前在Interspeech2019发表的《End-to-End Speech Translation with Knowledge Distillation》，此次提出的新模型进一步提升了端到端语音翻译的性能，给学术界和企业界带来了新的思路。

论文地址：https://arxiv.org/abs/1912.07240

至此，《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》论文的分享到此结束，我们将继续对AAAI 2020中百度入选的其余3篇NLP领域论文进行详细解读，敬请关注！

一、研究背景

二、技术方案

三、实验结果

推荐阅读

目录