【问题标题】:Speech to Text (Voice Recognition) Directly from Audio / Transcription [closed]直接来自音频/转录的语音到文本(语音识别)[关闭]
【发布时间】:2014-07-14 15:15:38
【问题描述】:

需要能够使用语音到文本(语音识别)算法以高精度将包含语音的音频(例如,从 .MP3、其他音频格式)转换或转录为文本转录本。 有许多可用的方法可以做到这一点,这些方法越来越准确,但专为通过设备麦克风说出的语音而设计(例如,用于 Web 的 Google Translate/corresponding API,用于 iOS 的 Dragon 应用程序)。 我需要一种将音频文件直接输入语音识别引擎/API 的方法。 不想通过扬声器播放音频并用麦克风捕获它 - 长音频文件需要相当长的时间,并且会降低音频质量和由此产生的转录质量。 是否存在 Web 服务、API 或代码?是否存在某种围绕假定麦克风将是源的现有服务之一的包装器?

谢谢

【问题讨论】:

标签: audio text mp3 speech-recognition speech


【解决方案1】:

现在有一项相对较新的服务允许 Speech to Text 自动转录,以及用于人工编辑结果的出色 Web 界面。它是:

https://trint.com/

我们已经使用了它,并且对结果感到满意。转录当然不是完美的,但它是一个很好的开始,它允许人工编辑。

IBM Bluemix/Watson 现在还提供了一个新的 API 和服务。您可以在此处尝试免费演示:

https://speech-to-text-demo.mybluemix.net/

这项服务在将音频(来自麦克风或音频文件)转换为文本方面做得相当不错。目前至少在演示中,它似乎不使用 MP3,但会使用 wav 和其他格式。该服务具有完整的 API,主要设计用于内置到应用程序中。

【讨论】:

  • 这是如何实现的?或者现在如何使用 ML 或 ML 来实现它?
猜你喜欢
  • 1970-01-01
  • 2021-09-07
  • 2023-03-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-06-08
  • 2023-01-09
  • 2016-12-04
相关资源
最近更新 更多