【发布时间】:2018-10-03 12:29:48
【问题描述】:
是否可以通过离线基本音频处理来检测单词边界以获得足够准确的 WPM* 估计值?我认为可以通过检测停顿(表示单词边界)来完成。它会跨语言并适用于所有语言吗?
在传统语音识别中[(不是/相对于)现代机器/深度学习语音识别], 哪个被认为是更容易/解决的部分,找到单词边界或将它们与正确的单词进行统计匹配?
我一直在使用的示例:web page with audio elements*、audio
我将在浏览器中使用来自 Web Audio API 的 MediaElementAudioSourceNode 和 AudioNode 进行操作。
*每分钟字数
*更多关于我正在做/想到的事情: 我是forking Videospeed 扩展构建名为“Media Enhancer: Audio/Video Playback speed, Shortcuts & Controls”的扩展,您可以从名称、音频元素的播放速度、新的键盘快捷键、可选的计算 WPM 估计值(这就是我问这个问题的原因),包括我在内的高级用户还有更多。
【问题讨论】:
标签: speech-recognition web-audio-api speech-to-text speech audio-processing