高质量，情感，流畅和可变的文本到语音引擎？答案

【问题标题】：High quality, emotional, fluent and variable Text-to-Speech engine?高质量，情感，流畅和可变的文本到语音引擎？
【发布时间】：2011-09-18 00:32:28
【问题描述】：

在查看了一些服务/工具后，我得出了一个结论。大多数 Text-to-Speech 工具都过于技术化、机械化 - 换句话说，c 语音质量差。

是的，最重要的是，它们似乎带有“硬编码”语音模板，因此缩短了品种/定制。有些工具允许您设置阅读速度和音高，但这还不够。

我对情感方面背后的问题的猜测 - 很难从纯文本中判断情感，如果只是一两句话就更难了。另外，好的 ol' PC 是一台机器——机器没有情感，但那是另一回事。

最困扰我的是质量。例如，有一些工具可以用来切断单词的顶点，从而产生这些技术性的声音。感觉句子结构有问题。是的，当人们在研究这些工具时，我想知道，是什么让他们无法再努力改进这些工具……切断顶点，这可不是小事！另外，必须记住，一个好的、高质量的文本到语音转换软件是值得的，嗯……很多！因此产生了非常有利可图的产品。

哦，在流利的情况下，我隐藏了问题、感叹等。（可能这些不适用于流利程度，但我的母语不是英语，如果是这种情况，请见谅。）

我研究过的工具列表：

相当令人印象深刻，但仍有改进空间 (++)

^{- Loquendo : 缺乏声音多样性，有一些小的顶点/流利问题（取决于句子），太多咳嗽和借口！}
^{- Nuance Vocalizer : 虽然仍然缺乏多样性，但提供的一些声音是值得的。}

也可以合作获得更多资源，然后开发不同但几乎相同的产品 (--)

^{- eSpeak : 最好的机器人之一，因此程序标志（？！）}
^{- Natural Reader (dumb autoplay!!) ：嗯，它有一些流利，但是仍然有那种技术性的感觉。}
^{- iSpeech : 用英文文本将声音设置为日语时，笑得很开心。我敢打赌日本人对此不会很高兴。}
^{- Cepstral + Enhanced Voices ... 加上增强的声音会产生很好的糟糕结果，所以，除了 ~5更多的声音，没有任何增强。}
^{- AT&T : 流利度不错，但是句子结尾和机器人太多了问题！}
^{- @987654329 @ : 看起来像是来自有很多语音工具的背景，但仍然会产生机器人声音。}
^{- 还有更多...}

如果我错过了值得一看的东西，请分享。 可以是免费的、商业的、超级昂贵的……只要它有效，我就有兴趣！

还有问题(-s)..

你认为这些声音的质量、流畅度和多样性背后的主要问题是什么？ 由于情感方面很难判断，我不介意你跳过它，但如果你有一两个想法，如果你分享你的想法，我不介意
How is text transformed into speech? 比如，这些工具背后使用了哪些算法？也许一两个新的理论会派上用场。
这些实际上是不同的引擎/驱动程序，还是只是同一驱动程序/引擎的不同语音模式？
只是我，还是 first Text2Speech 工具之一的质量多年来没有太大（或根本没有）变化？ 不得不承认，这个老派的苹果工具比 2000 年以上的一些工具提供了更好的结果，至少在将视频与我所研究的内容进行比较时。）

【问题讨论】：

在我看来，上面的#2 和#3 会提出几个合理的问题。其余部分似乎引发了超出问答论坛范围的讨论。
嗯，也许有人有心情在这篇文章中回答其中一些问题，但是是的，我已经为question #2 开了一个新帖子。
“顶点”是什么意思？我已经阅读了一些有关语音合成和理解的内容，但在这种情况下我对这个术语并不熟悉。我也用谷歌搜索出局了。也许插入一个定义？

标签： audio text-to-speech voice speech-synthesis

【解决方案1】：

我不知道您是否正在寻找一个开放的解决方案，但如果您有 Mac，您应该查看OS X advanced speech markup 和“Repeat After Me”短语构建工具。它真的很强大。 Mac OS X 10.5 及更高版本中内置的 Alex 语音比其他语音更高级。

在 Mac 上，突出显示以下文本，按住 Control 单击，然后转到语音 > 开始朗读：

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

【讨论】：

而第 2/3 行是一些让声音感觉更真实的选项？
是的，好吧，它为强调和其他内容添加了一些微调。我的耳朵听起来好多了。你也可以用@符号吸一口气。

【解决方案2】：

谷歌翻译使用的 TTS 非常适合短句，但可能会为任何复杂的内容产生不自然的语调轮廓。尽管如此，在文字层面上，它还是令人印象深刻的。有一个小code example here

还有Ivona - 他们可能会犯更多的发音错误，例如谷歌翻译，但他们在节奏和语调上做得更好。看看他们的“Raveena”声音，这是他们迄今为止最好的声音之一。

【讨论】：

【解决方案3】：

我知道这是一个老问题，但我刚刚看到 IBM 的“Watson”演示，非常令人印象深刻！它们支持多种语言，您可以控制语气、停顿、语调和其他一些变量。

如果你还在寻找这个，或者其他人正在寻找一个好的 TTS，你应该去看看。

免责声明：我不为 IBM 或与此产品相关的任何公司工作，我只是觉得它令人印象深刻！

【讨论】：