【发布时间】:2010-07-05 09:02:19
【问题描述】:
我有一个音频流,我会从中提取单词(语音)。例如,如果有 audio.wav,我会得到 001.wav、002.wav、003.wav 等,其中每个 XXX.wav 是一个单词。
我正在寻找一个库或程序来做这件事——平台无关紧要,但我更喜欢开源解决方案。
提前感谢您的帮助。
【问题讨论】:
我有一个音频流,我会从中提取单词(语音)。例如,如果有 audio.wav,我会得到 001.wav、002.wav、003.wav 等,其中每个 XXX.wav 是一个单词。
我正在寻找一个库或程序来做这件事——平台无关紧要,但我更喜欢开源解决方案。
提前感谢您的帮助。
【问题讨论】:
Nuance,制作Dragon Naturally Speaking的公司,有多个Software Development Kits。
Audio Mining 套件似乎符合您的要求:
Dragon NaturallySpeaking SDK AudioMining 是独立于扬声器的 语音识别工具包 使索引的 100% 音频文件中的语音信息。 该技术采用高精度 语音识别转音频文件 带时间戳的 XML 文本 信息。这个可以集成 使用标准的文本搜索产品 实现对特定音频的快速访问 内容。
语音到语音+元数据是最难做对的部分。获得语音 + 元数据后,将单词提取为单独的音频文件是 much more straightforward。
【讨论】: