Abstract
- git代码:https://github.com/Tomiinek/Multilingual_Text_to_Speech
- 不懂:multilingual speech synthesis which uses the meta-learning concept of contextual parameter generation TODO
- 不懂:利用上下文参数生成的元学习概念进行多语言语音合成
- produces natural-sounding multilingual speech using more languages:文中分别用了10个语言和5个语言做实验,可能只有2个语言就不能训meta了(不过对于方言合成倒是有利)
- less training data than previous approaches:测试了每个语言每个人600句和900句下,也可以达到不错的CER,和相对比了用谷歌的框架和SPE;但值得注意的是用的数据集是单人10语言的数据集;在后来的CV数据集的实验中,它的每个人每个语言的句子也很少,如果此框架足够强,应该也可以合成很好的,但是可惜论文没有测试CV数据集中说话人跨语言合成的质量
- Tacotron-2的Encoder改为了全CNN的,并且权重由separate parameter generator network产生,这就叫meta-learning
- 使用了speaker GL去音色,为了能够voice clone,但是实验中并没有怎么做
- 其实论文探讨的是:various levels of cross-lingual parameter sharing下哪一种更好
- 衡量指标1:stability and performance when training on low amounts of data,就是借助ASR后CER大小
- 衡量指标2.1:就是fluency, naturalness, and stability of the voice (speaker similarity) – to check if foreign words cause any change to the speaker’s voice
- 衡量指标2.2:accuracy – testing if all words are pronounced and the foreign word pronunciation is correct
- 核心贡献:技术上effectively share information across languages
- 核心贡献:目的和效果上produces more natural and accurate code-switching speech than the baselines,意味着当有单人多语语料的时候,论文方法比单人单语训Tacotron独立合成的还要好,(甚至可以弥补第二语言发音不标准的缺陷)
文本规范化处理
中文
https://github.com/lxyu/pinyin
估计和pypinyin差不多
实验一:测试GEN系统的CER稳定性
实验设置
单人多语语料,只用CSS10单说话人,所有结构都不考虑多说话人,去掉speaker embedding
训练的超参省略
ASR用谷歌的接口:https://cloud.google.com/speech-to-text
实验目的
designed to show stability and ability to train on lower amounts of data.
但同时也为了证明:有双(多)语语料的时候,单独合Tacotron:SGL,谷歌的共享IPA+Encoder+Language ID:SHA,港中文的只共享Decoder:SPE,以及本文提出的通过Meta-Learning的方式共享Encoder,本质上介于了SPE和SHA之间,只是不用IPA+不用Language ID拼接
实验结果
分析1(我添加的)
语料质量不好,GT的识别错误率都有20%,但是不好的额外的语言的语料仍然可以增强网络的合成能力。
语言越多越好
分析2
GEN > SHA > SPE
不过原因需要认真分析,目前略。。。
Meta-learning下的GEN Encoder和SHA下的Encoder和SPE下的Encoder究竟本质区别是什么?TODO
并且SHA的输入是IPA吗?TODO
并且GEN比单独训练Tacotron SGL还好,说明共享decoder?以及meta形式共享encoder?TODO
实验二:测试GEN系统的混语言CS效果
实验设置
we only used the five languages where both CSS10 and CV data are available
all data in our cleaned sets:大约100h+10h
部分超参数:启用了对抗性说话人分类器。SHA说话人嵌入的大小设置为32,并使用语言嵌入SHA中的为4,GEN使用大小为10的语言嵌入和大小为4的生成器层,猜测说话人嵌入的大小设置为32
测试句子:
但是评测时候用的说话人一直是CSS10的那个mono,那么不去cross到CV的说话人了吗?那CV的作用仅仅是加强了单人多语数据集说话人的质量吗?TODO
实验目的
证明GEN使用CSS10+CV合成CSS10语音质量最好
实验结果
分析1
结合speaker embedding,加以CV辅助,GEN效果最好,Encoder之后的Text Encoding更偏向于谷歌SHA版本的。但是跨音色到别的人上面,不知道效果怎么样?TODO