Abstract

  1. git代码:https://github.com/Tomiinek/Multilingual_Text_to_Speech
  2. 不懂:multilingual speech synthesis which uses the meta-learning concept of contextual parameter generation TODO
  3. 不懂:利用上下文参数生成的元学习概念进行多语言语音合成
  4. produces natural-sounding multilingual speech using more languages:文中分别用了10个语言和5个语言做实验,可能只有2个语言就不能训meta了(不过对于方言合成倒是有利)
  5. less training data than previous approaches:测试了每个语言每个人600句和900句下,也可以达到不错的CER,和相对比了用谷歌的框架和SPE;但值得注意的是用的数据集是单人10语言的数据集;在后来的CV数据集的实验中,它的每个人每个语言的句子也很少,如果此框架足够强,应该也可以合成很好的,但是可惜论文没有测试CV数据集中说话人跨语言合成的质量
  6. Tacotron-2的Encoder改为了全CNN的,并且权重由separate parameter generator network产生,这就叫meta-learning
  7. 使用了speaker GL去音色,为了能够voice clone,但是实验中并没有怎么做
  8. 其实论文探讨的是:various levels of cross-lingual parameter sharing下哪一种更好
  9. 衡量指标1:stability and performance when training on low amounts of data,就是借助ASR后CER大小
  10. 衡量指标2.1:就是fluency, naturalness, and stability of the voice (speaker similarity) – to check if foreign words cause any change to the speaker’s voice
  11. 衡量指标2.2:accuracy – testing if all words are pronounced and the foreign word pronunciation is correct
  12. 核心贡献:技术上effectively share information across languages
  13. 核心贡献:目的和效果上produces more natural and accurate code-switching speech than the baselines,意味着当有单人多语语料的时候,论文方法比单人单语训Tacotron独立合成的还要好,(甚至可以弥补第二语言发音不标准的缺陷)

文本规范化处理

中文

https://github.com/lxyu/pinyin

估计和pypinyin差不多

实验一:测试GEN系统的CER稳定性

实验设置

单人多语语料,只用CSS10单说话人,所有结构都不考虑多说话人,去掉speaker embedding

训练的超参省略

ASR用谷歌的接口:https://cloud.google.com/speech-to-text

实验目的

designed to show stability and ability to train on lower amounts of data.

但同时也为了证明:有双(多)语语料的时候,单独合Tacotron:SGL,谷歌的共享IPA+Encoder+Language ID:SHA,港中文的只共享Decoder:SPE,以及本文提出的通过Meta-Learning的方式共享Encoder,本质上介于了SPE和SHA之间,只是不用IPA+不用Language ID拼接

实验结果

平安-Meta-learning for Multilingual Text-to-Speech

分析1(我添加的)

语料质量不好,GT的识别错误率都有20%,但是不好的额外的语言的语料仍然可以增强网络的合成能力。

语言越多越好

分析2

GEN > SHA > SPE

不过原因需要认真分析,目前略。。。

Meta-learning下的GEN Encoder和SHA下的Encoder和SPE下的Encoder究竟本质区别是什么?TODO

并且SHA的输入是IPA吗?TODO

并且GEN比单独训练Tacotron SGL还好,说明共享decoder?以及meta形式共享encoder?TODO

实验二:测试GEN系统的混语言CS效果

实验设置

we only used the five languages where both CSS10 and CV data are available

all data in our cleaned sets:大约100h+10h

部分超参数:启用了对抗性说话人分类器。SHA说话人嵌入的大小设置为32,并使用语言嵌入SHA中的为4,GEN使用大小为10的语言嵌入和大小为4的生成器层,猜测说话人嵌入的大小设置为32

测试句子:

平安-Meta-learning for Multilingual Text-to-Speech

但是评测时候用的说话人一直是CSS10的那个mono,那么不去cross到CV的说话人了吗?那CV的作用仅仅是加强了单人多语数据集说话人的质量吗?TODO

实验目的

证明GEN使用CSS10+CV合成CSS10语音质量最好

实验结果

平安-Meta-learning for Multilingual Text-to-Speech

平安-Meta-learning for Multilingual Text-to-Speech

分析1

结合speaker embedding,加以CV辅助,GEN效果最好,Encoder之后的Text Encoding更偏向于谷歌SHA版本的。但是跨音色到别的人上面,不知道效果怎么样?TODO

 

 

 

 

相关文章: