Facebook发布多语种语音-文本翻译语料库CoVoST,包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文。其中数据集和论文如下:
《CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus》
github地址:https://github.com/facebookresearch/covost
论文下载地址:https://arxiv.org/abs/2002.01320
里面含中文的数据。数据集的具体情况: