实时 3D 模型渲染和实时文本到语音 [关闭]答案

【问题标题】：Realtime 3D model rendering and real time text to speech [closed]实时 3D 模型渲染和实时文本到语音 [关闭]
【发布时间】：2013-02-03 17:56:21
【问题描述】：

在提出问题时，应将整个问题分解为较小的问题并一一解决。但我问得不好，为了完全解释我的需求和技术限制，希望有人建议完美的技术集。

我要设计一些可以接受文本作为输入转换成语音的东西此演讲由实时 3D 模型 朗读。

在这里你可以看到所有这些东西都应该是实时的，因此我正在考虑在一些游戏引擎中进行，但我不确定我在这里做的事情是否可行。

我需要指导，一条道路，我应该如何开始。

【问题讨论】：

【解决方案1】：

您尚未指定平台，即 Windows/Linux 等，尽管这可能并不重要。

我最初的想法是将 PICO tts 库与 Blender 游戏引擎 (BGE) 结合起来。虽然我不确定 Pico 引擎是否有 python 绑定。

espeak 项目 (espeak.sourceforge.net/) 将普通文本转换为音素，然后可用于驱动 shape-keys（或 blend-keys，我忘记了 Blender 的名称，因为我已经 5 年多了最后一次使用 Blender/Maya/3DSMax）。

大概，您可以在 python 中实现 espeak 引擎（或创建一个可通过 python 访问的模块）并使用它来生成所需的音素，然后将它们同时传递给您的形状/混合键控制器和 Pico。

快速浏览后，似乎 libttspico-dev 是支持开发支持 pico 的应用程序的包，尽管它似乎只包含 c/c++ 文件 - 我想应该可以创建一个利用引擎，但我真的不熟悉 Pico 的任何东西，而不是它的名称和基本功能。这可能是一个愚蠢和不知情的建议。

无论如何，这肯定是一个有趣的项目。也许更简单的方法是用 C/C++ 创建一个使用 OGRE 和 Pico 的应用程序。重要的因素是 OGRE 能够从 1 个形状键混合到下一个形状键 - 也可能是 Pico 在内部以这样一种方式做所有事情，以至于您无法获得回调或监控它在播放语音中的当前位置。

已收藏。

【讨论】：

非常感谢，你帮助了一个流浪者。尽管线程已关闭，但您向我展示了继续进行的方式，而不是开始。我忘了提到对 linux 的要求。如果我们无法从 Pico 获得回调，那么 C/C++ 中的应用程序可以设计为将受控输入发送到 pico 以获得所需的结果。再次感谢您！
不客气。很高兴知道我帮助提供了一些方向和调查途径。几年前看过一个将文本转换为音素并根据它为角色制作动画的 Flash 教程，但是实时操作 3D 模型与实际语音相一致的想法让我想起了 Thunderbirds 和它们的超级化（en.wikipedia .org/wiki/Supermarionation）似乎太有趣了，以至于无法抗拒寻找解决问题的途径的冲动。祝你好运和最好的问候。 :)