6月21日至24日,2020北京智源大会盛大开幕,五位图灵奖得主、十多位院士、一百多位专家学者齐聚一堂,共同探讨人工智能的下一个十年。受疫情影响,本届大会以在线直播的形式举行,吸引了全球学术界、产业界超过2.5万人报名参会。为了更好的帮助国内外观众理解报告内容,百度翻译为本次大会提供了机器同传服务。
百度翻译同传现场效果展示
人工同传专业性强,难度极高
同传是一项专业性极强、难度极大、耗脑又耗嗓的工作。除了深厚的语言能力外,还需要极强的反应能力,边说边听,精力高度集中,对译员的脑力和体力都是极高的挑战。因此往往一场会需要两个甚至多个译员共同完成同传。
国际会议口译员协会(International Association of Conference Interpreters, 简称 AIIC)作为会议口译职业全球唯一专业协会,全球会员仅有约3000人,其中汉语普通话会员仅50人。而据不完全统计,仅中国每年需要同传的国际会议就有上万场。巨大的市场需求与译员的稀缺形成强烈反差。
机器同传成研究热点 ,百度翻译提出多项创新
近年来,得益于人工智能技术的综合进步,结合语音技术和机器翻译技术的机器同声传译成为国际前沿研究的热点。机器同传面临一系列国际公认的难题,如语音识别错误传递、翻译质量与时间延迟难以平衡等。
针对这些难题,百度翻译团队展开攻关,先后提出了集成预测与可控时延的翻译模型、语义单元驱动的上下文感知翻译模型、融合音节与文本的联合编码模型、基于知识蒸馏的端到端同传模型、语音识别与翻译交互解码等一系列创新技术,在语音容错、平衡质量与时延、语篇翻译连贯性和端到端同传模型等方面取得突破,研发了高质量、低时延的机器同传系统。
在2018《麻省理工科技评论》十大技术突破中,百度被列为语音翻译领域“Key Player”,成为国内唯一上榜单位。
远程直播会议新形式 ,百度同传研发新方案
全球疫情使得大量会议改为了线上进行。此次智源大会采取演讲人远程接入,观众通过直播平台观看的形式举行。这种形式进一步加重了同传的难度:
一是语音识别难度增大。为了适应网络带宽,在线会议软件对声音信号进行压缩编码处理,同时传输过程中易受多种信号干扰,原始声音信号不稳定,对语音识别挑战极大。
二是多场会议并行,对系统稳定性要求高。以往的会议往往都是一场会议发言人顺序进行,而本次会议共有19个分论坛,最多的时候同时并行6场,系统部署难度超过以往。
三是领域庞杂,专业性强。本次大会涵盖智能体系架构、智能芯片、认知神经、机器感知、人工智能伦理、AI 医疗、AI 交通等多个领域,每一个领域都极具专业性,专业术语和领域知识翻译难度大。
针对以上难题,百度研发了创新的机器同传解决方案。搭载百度语音自研的 SMLTA 声学建模技术,并通过对音频信号的加强处理,提升了识别的鲁棒性;采用云端在线部署,极大降低了部署难度和成本,可根据需求迅速扩容,高效满足不同形式的同传需求;通过迁移学习、预训练加精细化训练等技术,可以迅速提升领域模型的翻译效果,满足多领域翻译需求。
新机遇新挑战促发展
目前,机器同传已在许多国际会议上崭露头角,它的优势在于可以借助强大的 AI 技术和数据库作为后盾,掌握并调取更多资料和专业领域的知识,持续工作,不知疲倦。
同时,也需要清醒的认识到,机器同传仍面临多项国际公认难题,如语音容错、数据稀缺、评价困难等,需要多学科、多技术深入交叉融合,共同进步。基于此,在今年即将召开的领域顶级会议 ACL 上,百度联合谷歌、脸书、宾夕法尼亚大学、清华大学等国内外著名公司和高校,举办首届机器同传研讨会,邀请了多名人类同传专家、机器翻译专家共同探讨机器同传技术进展、面临挑战及未来发展。
未来,百度将持续进行技术创新,推动机器同传技术迈向新的阶段,构筑跨语言沟通桥梁,促进全球协作。