何中军博士认为机器进行同声传译主要面临三个挑战:技术、数据和评价。技术方面,机器同传可能会因受噪声影响出现识别错误、断句不准的问题。同时,机器同传需平衡高准确与低时延的矛盾、保证语篇连贯。数据方面,比照语音和翻译数据量,真实场景中同声传译数据仅几十-几百小时,数据量比较有限。评价方面,同声传译保证内容实时传播,通常遵循顺句驱动、合理简约的原则,现有的评价标准无法准确的衡量同传系统的性能。
机器同传的前沿进展部分,何中军博士结合百度在此领域的最新研究成果,介绍了识别容错、可控时延翻译模型、上下文感知的同传模型、语篇翻译、端到端模型等前沿进展。
可控时延翻译模型,具备一定的预测功能。上下文感知的同传模型,从人类译员获得灵感,通过控制语义单元粒度实现翻译质量和时延的均衡,使用预训练模型ERNIE识别语义单元。语篇翻译模型提出了两步解码策略,结合强化学习进行修正,提升了译文的流畅度和一致性。
当前机器同传系统主要是“流水线”框架,A语言输入后经过语音识别、翻译、语音合成技术,输出为B语言。与流水线框架不同,端到端模型则是将语音直接转换为目标语言的文本或者语音。受限于训练数据的不足,端到端模型效果还未超过流水线模型。针对这一问题,百度提出了基于知识蒸馏的端到端模型,将文本翻译模型作为教师模型,语音翻译模型作为学生模型,用文本模型教语音模型,提升语音翻译模型的翻译质量。
未来,机器同传会在模型、数据、评价三方面不断优化,即研究高鲁棒低时延同传模型、建设大规模面向真实场景的同传数据、研究面向同传的评价体系和标准。在数据建设方面,百度发布了首个面向真实演讲场景的中英同传数据集(http://ai.baidu.com/broad),并与全国机器翻译大会合作举行了首届中英语音翻译评测,促进相关技术发展。
百度机器同传基于飞桨(PaddlePaddle)开发。飞桨平台搭载的 Transformer模型,实现了多机多卡并行训练,相比Tensorflow训练速度提升了150%。
PaddleNLP是工业级中文NLP工具与预训练模型集,将自然语言处理领域的多种模型用一套共享骨架代码实现。PaddleNLP提供依托于百度百亿级大数据的预训练模型,能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署,而且可以直接使用百度开源工业级预训练模型进行快速应用。
百度NLP开源工具集主页地址:
nlp.baidu.com/homepage/nlptools
百度NLP开源工具集GitHub地址:
github.com/PaddlePaddle/models/tree/develop/PaddleNLP
进入提问环节,现场博士们踊跃提问,交流氛围热烈。随后,每位博士就自身的研究领域和工作行业领域进行自我介绍。