用于从音频流中提取单词（语音）的库？答案

【问题标题】：Library for extracting words (speech) out from audio stream?用于从音频流中提取单词（语音）的库？
【发布时间】：2010-07-05 09:02:19
【问题描述】：

我有一个音频流，我会从中提取单词（语音）。例如，如果有 audio.wav，我会得到 001.wav、002.wav、003.wav 等，其中每个 XXX.wav 是一个单词。

我正在寻找一个库或程序来做这件事——平台无关紧要，但我更喜欢开源解决方案。

提前感谢您的帮助。

【问题讨论】：

【解决方案1】：

Audio Mining 套件似乎符合您的要求：

Dragon NaturallySpeaking SDK AudioMining 是独立于扬声器的语音识别工具包使索引的 100% 音频文件中的语音信息。该技术采用高精度语音识别转音频文件带时间戳的 XML 文本信息。这个可以集成使用标准的文本搜索产品实现对特定音频的快速访问内容。

语音到语音+元数据是最难做对的部分。获得语音 + 元数据后，将单词提取为单独的音频文件是 much more straightforward。

【讨论】：

NB 提到的音频挖掘套件附带以下警告：“** Dragon AudioMining 技术专为美国英语设计，不适用于会议或采访的转录。**”
很难在网上找到有关 Nuance AudioMining 的信息。这似乎是矛盾的，因为在 1999 年的产品发布中明确提到了会议和采访的转录：youtube.com/watch?v=yagvFY_rUwM