【发布时间】:2011-09-18 00:32:28
【问题描述】:
在查看了一些服务/工具后,我得出了一个结论。大多数 Text-to-Speech 工具都过于技术化、机械化 - 换句话说,c 语音质量差。
是的,最重要的是,它们似乎带有“硬编码”语音模板,因此缩短了品种/定制。有些工具允许您设置阅读速度和音高,但这还不够。
我对情感方面背后的问题的猜测 - 很难从纯文本中判断情感,如果只是一两句话就更难了。另外,好的 ol' PC 是一台机器——机器没有情感,但那是另一回事。
最困扰我的是质量。例如,有一些工具可以用来切断单词的顶点,从而产生这些技术性的声音。感觉句子结构有问题。是的,当人们在研究这些工具时,我想知道,是什么让他们无法再努力改进这些工具……切断顶点,这可不是小事!另外,必须记住,一个好的、高质量的文本到语音转换软件是值得的,嗯……很多!因此产生了非常有利可图的产品。
哦,在流利的情况下,我隐藏了问题、感叹等。 (可能这些不适用于流利程度,但我的母语不是英语,如果是这种情况,请见谅。)
我研究过的工具列表:
相当令人印象深刻,但仍有改进空间 (++)
- Loquendo : 缺乏声音多样性,有一些小的顶点/流利问题(取决于句子),太多咳嗽和借口!
- Nuance Vocalizer : 虽然仍然缺乏多样性,但提供的一些声音是值得的。
也可以合作获得更多资源,然后开发不同但几乎相同的产品 (--)
- eSpeak : 最好的机器人之一,因此程序标志(?!)
- Natural Reader (dumb autoplay!!) :嗯,它有一些流利,但是仍然有那种技术性的感觉。
- iSpeech : 用英文文本将声音设置为日语时,笑得很开心。我敢打赌日本人对此不会很高兴。
- Cepstral + Enhanced Voices ... 加上增强的声音会产生很好的糟糕结果,所以,除了 ~5更多的声音,没有任何增强。
- AT&T : 流利度不错,但是句子结尾和机器人太多了问题!
- @987654329 @ : 看起来像是来自有很多语音工具的背景,但仍然会产生机器人声音。
- 还有更多...
如果我错过了值得一看的东西,请分享。 可以是免费的、商业的、超级昂贵的……只要它有效,我就有兴趣!
还有问题(-s)..
- 你认为这些声音的质量、流畅度和多样性背后的主要问题是什么? 由于情感方面很难判断,我不介意你跳过它,但如果你有一两个想法,如果你分享你的想法,我不介意
- How is text transformed into speech? 比如,这些工具背后使用了哪些算法?也许一两个新的理论会派上用场。
- 这些实际上是不同的引擎/驱动程序,还是只是同一驱动程序/引擎的不同语音模式?
- 只是我,还是 first Text2Speech 工具之一的质量多年来没有太大(或根本没有)变化? 不得不承认,这个老派的苹果工具比 2000 年以上的一些工具提供了更好的结果,至少在将视频与我所研究的内容进行比较时。)
【问题讨论】:
-
在我看来,上面的#2 和#3 会提出几个合理的问题。其余部分似乎引发了超出问答论坛范围的讨论。
-
嗯,也许有人有心情在这篇文章中回答其中一些问题,但是是的,我已经为question #2 开了一个新帖子。
-
“顶点”是什么意思?我已经阅读了一些有关语音合成和理解的内容,但在这种情况下我对这个术语并不熟悉。我也用谷歌搜索出局了。也许插入一个定义?
标签: audio text-to-speech voice speech-synthesis