直接来自音频/转录的语音到文本（语音识别）[关闭]答案

【问题标题】：Speech to Text (Voice Recognition) Directly from Audio / Transcription [closed]直接来自音频/转录的语音到文本（语音识别）[关闭]
【发布时间】：2014-07-14 15:15:38
【问题描述】：

需要能够使用语音到文本（语音识别）算法以高精度将包含语音的音频（例如，从 .MP3、其他音频格式）转换或转录为文本转录本。有许多可用的方法可以做到这一点，这些方法越来越准确，但专为通过设备麦克风说出的语音而设计（例如，用于 Web 的 Google Translate/corresponding API，用于 iOS 的 Dragon 应用程序）。我需要一种将音频文件直接输入语音识别引擎/API 的方法。不想通过扬声器播放音频并用麦克风捕获它 - 长音频文件需要相当长的时间，并且会降低音频质量和由此产生的转录质量。是否存在 Web 服务、API 或代码？是否存在某种围绕假定麦克风将是源的现有服务之一的包装器？

谢谢

【问题讨论】：

这里离题了，但你可以试试Software Recommendations
在我的回答中查看链接的 API - stackoverflow.com/a/19976697/1256219

标签： audio text mp3 speech-recognition speech

【解决方案1】：

现在有一项相对较新的服务允许 Speech to Text 自动转录，以及用于人工编辑结果的出色 Web 界面。它是：

https://trint.com/

我们已经使用了它，并且对结果感到满意。转录当然不是完美的，但它是一个很好的开始，它允许人工编辑。

IBM Bluemix/Watson 现在还提供了一个新的 API 和服务。您可以在此处尝试免费演示：

https://speech-to-text-demo.mybluemix.net/

这项服务在将音频（来自麦克风或音频文件）转换为文本方面做得相当不错。目前至少在演示中，它似乎不使用 MP3，但会使用 wav 和其他格式。该服务具有完整的 API，主要设计用于内置到应用程序中。

【讨论】：

这是如何实现的？或者现在如何使用 ML 或 ML 来实现它？