飞桨博士会第五期回顾：机器同传进展与展望

何中军博士认为机器进行同声传译主要面临三个挑战：技术、数据和评价。技术方面，机器同传可能会因受噪声影响出现识别错误、断句不准的问题。同时，机器同传需平衡高准确与低时延的矛盾、保证语篇连贯。数据方面，比照语音和翻译数据量，真实场景中同声传译数据仅几十-几百小时，数据量比较有限。评价方面，同声传译保证内容实时传播，通常遵循顺句驱动、合理简约的原则，现有的评价标准无法准确的衡量同传系统的性能。

机器同传的前沿进展部分，何中军博士结合百度在此领域的最新研究成果，介绍了识别容错、可控时延翻译模型、上下文感知的同传模型、语篇翻译、端到端模型等前沿进展。

可控时延翻译模型，具备一定的预测功能。上下文感知的同传模型，从人类译员获得灵感，通过控制语义单元粒度实现翻译质量和时延的均衡，使用预训练模型ERNIE识别语义单元。语篇翻译模型提出了两步解码策略，结合强化学习进行修正，提升了译文的流畅度和一致性。

当前机器同传系统主要是“流水线”框架，A语言输入后经过语音识别、翻译、语音合成技术，输出为B语言。与流水线框架不同，端到端模型则是将语音直接转换为目标语言的文本或者语音。受限于训练数据的不足，端到端模型效果还未超过流水线模型。针对这一问题，百度提出了基于知识蒸馏的端到端模型，将文本翻译模型作为教师模型，语音翻译模型作为学生模型，用文本模型教语音模型，提升语音翻译模型的翻译质量。

未来，机器同传会在模型、数据、评价三方面不断优化，即研究高鲁棒低时延同传模型、建设大规模面向真实场景的同传数据、研究面向同传的评价体系和标准。在数据建设方面，百度发布了首个面向真实演讲场景的中英同传数据集（http://ai.baidu.com/broad），并与全国机器翻译大会合作举行了首届中英语音翻译评测，促进相关技术发展。

百度机器同传基于飞桨（PaddlePaddle）开发。飞桨平台搭载的 Transformer模型，实现了多机多卡并行训练，相比Tensorflow训练速度提升了150%。

PaddleNLP是工业级中文NLP工具与预训练模型集，将自然语言处理领域的多种模型用一套共享骨架代码实现。PaddleNLP提供依托于百度百亿级大数据的预训练模型，能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署，而且可以直接使用百度开源工业级预训练模型进行快速应用。

百度NLP开源工具集主页地址：

nlp.baidu.com/homepage/nlptools

百度NLP开源工具集GitHub地址：

github.com/PaddlePaddle/models/tree/develop/PaddleNLP

进入提问环节，现场博士们踊跃提问，交流氛围热烈。随后，每位博士就自身的研究领域和工作行业领域进行自我介绍。

飞桨博士会第五期回顾：机器同传进展与展望