关于 .NET 中语音识别类的问题答案

【问题标题】：Question on Speech Recognition classes in .NET关于 .NET 中语音识别类的问题
【发布时间】：2009-11-30 01:50:40
【问题描述】：

是否可以使用 .NET 语音识别类构建应用程序并传入一个 WAV 文件以供它通过并创建它的文本表示。例如，这是我正在尝试做的：

我们的办公室有一个 QA 部门，他们每天必须接听数百个电话，这几乎是不可能的，而且没有足够的人听所有的电话来跟上进度。我想要做的是将音频文件上传到我们的服务器并让服务器解析它并创建它的副本。它是否不完美并不重要，但只是一个基础，它比听 2 小时的录音更容易浏览几十行文本。

根据保存的文字记录，我可以在数据库中实现全文搜索，如果有人说错话，我还可以检查文字记录。

那么，是否可以使用 .NET 语音识别类创建一个应用程序，然后将 WAV 文件传递给它，然后它会输出一个粗略的转录本？

我在思考这个想法的同时，在语音课程上短暂地研究了 MSDN，所以如果可以做到的话，我没有那么多知识。

如果可能的话，我会感谢 C# 中的任何示例。主题1055347 类似于我遇到的问题，并提供了链接，其中最具体的是 C++。我不是 C++ 开发人员，也没有上过学编程，虽然 C# 我很自私，所以我想继续使用我所知道的语言。

提前致谢！

【问题讨论】：

标签： c# speech-recognition sapi

【解决方案1】：

这听起来像是您有一个呼叫中心类型的应用程序。 Microsoft Speech Server 有一个针对电话优化的 SR 引擎（8000 Hz 采样率），这将产生比桌面 SR 引擎更好的识别。但是，该引擎并不是真正为转录而设计的（尽管它可以做到这一点），并且在进一步处理之前肯定需要检查转录。 Microsoft Exchange Unified Communications 使用 SR 引擎来生成语音邮件的转录，虽然总比没有好，但它经常会产生有趣的废话。

【讨论】：

【解决方案2】：

对于语音识别等领域，您可能会找到独立的 EXE 或 c/c++ 中的 API。

对于其他主题中的链接，您可以使用P Interop Assistant 之类的工具来生成C# 代码。 C# 代码的作用类似于非托管 dll 的包装器，因此您可以从 c# 中调用它。

这可能是获得所需功能的最佳方式。

【讨论】：

【解决方案3】：

是的。

几年前我在平板电脑上做过这样的应用程序；你可以在http://web.archive.org/web/20060615192119/www.devx.com/TabletPC/Article/30761 阅读它（当时，我谈到使用 Interop 来访问库，但我相信编程模型保持不变，只是使用了托管包装器。）

当时，结果很差，但也许对于您的用例来说总比没有好。

【讨论】：

【解决方案4】：

如何将呼叫路由到Google Voice？我敢肯定有类似的服务。到目前为止，我一直对它的准确性感到惊讶，此外，如果需要，您可以单击并收听它。 Google Voice 会将语音通话转接到短信或电子邮件。

更新：重读时，也许因为您正在录制通话，所以它无法正常工作，因为我留下了语音消息。

【讨论】：