近日,自然语言处理顶级学术会议之一EMNLP 2020在线上举行。EMNLP由国际计算语言学学会(ACL)旗下SIGDAT组织,会议涵盖语义理解、文本理解、信息提取、信息检索和机器翻译等主题。会上,由百度联合Google举办的首次机器同声传译学术讲习班(Tutorial)召开,围绕机器同传的背景、挑战、模型、数据集、实用系统和产品、未来研究方向等展开报告和研讨,吸引了数百位国际学者参会。
同声传译一直都被学界和工业界广泛认为是自然语言处理最难的问题之一。从翻译模式看,相比传统的文本翻译,同声传译对翻译时延和准确率要求极高,这使得翻译模型总是需要在信息不充分的情况进行翻译,因而较之传统机器翻译,同声传译难度又翻倍;从译员角度看,同传专业性极强、难度极大、耗脑又耗嗓,对同传译员要求极高,除了深厚的语言能力外,还需要极强的反应能力,边说边听,精力高度集中,对译员的脑力和体力都是极高的挑战。因此往往一场会需要两个甚至多个译员共同完成同传。
近年来,随着语音处理、机器翻译等人工智能技术的快速进步,机器同传成为学术研究前沿课题,既取得了很大进步,同时也仍然面临诸多挑战。基于此,由百度联合Google主办的前沿讲习班围绕机器同传展开了深入剖析,从机器同传的发展背景、面临挑战展开,详细介绍了机器同传的发展现状和技术演进,同时介绍了实用系统研发面临的实际问题以及目前同传的多种产品形式,最后对机器同传未来的发展方向进行了探讨。据悉,这是国际上首次举办的有关机器同声传译的学术讲习班。
此次报告会指出,人类同传员的稀缺和人脑能力极限,正凸显了自动同传系统的必要性和相比人类同传的优势。在此现状下,机器同传开始逐步应用于大型国际会议,并在翻译策略上持续演进。同时,会上还深入浅出地介绍了机器同传技术在文本和语音翻译层面的演变方向,从固定翻译策略模型朝动态翻译策略改进,再到业界新近提出的增量式语音合成模型(incremental TTS)。
作为此次学术报告会的领衔举办方,百度分享了其目前在同传方向、不同场景下的实际落地的产品和使用效果。据介绍,百度AI同传先后提出集成预测与可控时延的翻译模型、语义单元驱动的上下文感知翻译模型、融合音节与文本的联合编码模型、基于知识蒸馏的端到端同传模型、语音识别与翻译交互解码等一系列创新技术。同时,还发布了覆盖线下会议、远程会议、线上线下融合会议,以及主题演讲、多人讨论等全场景、高质量、低时延的同传解决方案。
目前,百度AI同传技术已广泛服务于中国国际服务贸易交易会、全球人工智能技术大会、第三届中国国际进口博览会等多个国家级大型会议,帮助数千万海内外观众实时了解会议内容。其中,在服务第三届中国国际进口博览会中,百度AI同传技术还实现了产品层面的突破,提供了“大屏+手机”的创新双模式,使得与会人员能够通过会议大屏“看同传”,也能够通过手机端的AI同传服务 “听同传”。
针对当前面临的挑战,百度希望可以联合学界、工业界共推同传技术进步。明年将继续举办机器同传国际研讨会和机器同传评测,希望更多单位参与进来,一起推动技术进步。
随着全球贸易发展的提速和跨国学术商业交流的频繁开展,AI同传的作用将持续放大。而百度AI同传凭借先进的技术、完整的解决方案和不断创新的产品体验,将在其中扮演重要角色,助力国际会议、讲座培训、内部会议、商业洽谈等多场景下的跨语言交流,打破语言障碍,让沟通更便捷。