平安-Meta-learning for Multilingual Text-to-Speech

Abstract

git代码：https://github.com/Tomiinek/Multilingual_Text_to_Speech
不懂：multilingual speech synthesis which uses the meta-learning concept of contextual parameter generation TODO
不懂：利用上下文参数生成的元学习概念进行多语言语音合成
produces natural-sounding multilingual speech using more languages：文中分别用了10个语言和5个语言做实验，可能只有2个语言就不能训meta了（不过对于方言合成倒是有利）
less training data than previous approaches：测试了每个语言每个人600句和900句下，也可以达到不错的CER，和相对比了用谷歌的框架和SPE；但值得注意的是用的数据集是单人10语言的数据集；在后来的CV数据集的实验中，它的每个人每个语言的句子也很少，如果此框架足够强，应该也可以合成很好的，但是可惜论文没有测试CV数据集中说话人跨语言合成的质量
Tacotron-2的Encoder改为了全CNN的，并且权重由separate parameter generator network产生，这就叫meta-learning
使用了speaker GL去音色，为了能够voice clone，但是实验中并没有怎么做
其实论文探讨的是：various levels of cross-lingual parameter sharing下哪一种更好
衡量指标1：stability and performance when training on low amounts of data，就是借助ASR后CER大小
衡量指标2.1：就是fluency, naturalness, and stability of the voice (speaker similarity) – to check if foreign words cause any change to the speaker’s voice
衡量指标2.2：accuracy – testing if all words are pronounced and the foreign word pronunciation is correct
核心贡献：技术上effectively share information across languages
核心贡献：目的和效果上produces more natural and accurate code-switching speech than the baselines，意味着当有单人多语语料的时候，论文方法比单人单语训Tacotron独立合成的还要好，（甚至可以弥补第二语言发音不标准的缺陷）

文本规范化处理

中文

https://github.com/lxyu/pinyin

估计和pypinyin差不多

实验一：测试GEN系统的CER稳定性

实验设置

单人多语语料，只用CSS10单说话人，所有结构都不考虑多说话人，去掉speaker embedding

训练的超参省略

ASR用谷歌的接口：https://cloud.google.com/speech-to-text

实验目的

designed to show stability and ability to train on lower amounts of data.

但同时也为了证明：有双（多）语语料的时候，单独合Tacotron：SGL，谷歌的共享IPA+Encoder+Language ID：SHA，港中文的只共享Decoder：SPE，以及本文提出的通过Meta-Learning的方式共享Encoder，本质上介于了SPE和SHA之间，只是不用IPA+不用Language ID拼接

实验结果

平安-Meta-learning for Multilingual Text-to-Speech

分析1（我添加的）

语料质量不好，GT的识别错误率都有20%，但是不好的额外的语言的语料仍然可以增强网络的合成能力。

语言越多越好

分析2

GEN > SHA > SPE

不过原因需要认真分析，目前略。。。

Meta-learning下的GEN Encoder和SHA下的Encoder和SPE下的Encoder究竟本质区别是什么？TODO

并且SHA的输入是IPA吗？TODO

并且GEN比单独训练Tacotron SGL还好，说明共享decoder？以及meta形式共享encoder？TODO

实验二：测试GEN系统的混语言CS效果

实验设置

we only used the five languages where both CSS10 and CV data are available

all data in our cleaned sets：大约100h+10h

部分超参数：启用了对抗性说话人分类器。SHA说话人嵌入的大小设置为32，并使用语言嵌入SHA中的为4，GEN使用大小为10的语言嵌入和大小为4的生成器层，猜测说话人嵌入的大小设置为32

测试句子：

平安-Meta-learning for Multilingual Text-to-Speech

但是评测时候用的说话人一直是CSS10的那个mono，那么不去cross到CV的说话人了吗？那CV的作用仅仅是加强了单人多语数据集说话人的质量吗？TODO

实验目的

证明GEN使用CSS10+CV合成CSS10语音质量最好

实验结果

平安-Meta-learning for Multilingual Text-to-Speech

分析1

结合speaker embedding，加以CV辅助，GEN效果最好，Encoder之后的Text Encoding更偏向于谷歌SHA版本的。但是跨音色到别的人上面，不知道效果怎么样？TODO