【发布时间】:2014-07-14 15:15:38
【问题描述】:
需要能够使用语音到文本(语音识别)算法以高精度将包含语音的音频(例如,从 .MP3、其他音频格式)转换或转录为文本转录本。 有许多可用的方法可以做到这一点,这些方法越来越准确,但专为通过设备麦克风说出的语音而设计(例如,用于 Web 的 Google Translate/corresponding API,用于 iOS 的 Dragon 应用程序)。 我需要一种将音频文件直接输入语音识别引擎/API 的方法。 不想通过扬声器播放音频并用麦克风捕获它 - 长音频文件需要相当长的时间,并且会降低音频质量和由此产生的转录质量。 是否存在 Web 服务、API 或代码?是否存在某种围绕假定麦克风将是源的现有服务之一的包装器?
谢谢
【问题讨论】:
-
这里离题了,但你可以试试Software Recommendations
-
在我的回答中查看链接的 API - stackoverflow.com/a/19976697/1256219
标签: audio text mp3 speech-recognition speech