如何通过音频处理检测单词边界/估计单词数？（无语音识别）答案

【问题标题】：How to detect word boundaries/estimate words count with audio processing? (w/o speech recognition)如何通过音频处理检测单词边界/估计单词数？（无语音识别）
【发布时间】：2018-10-03 12:29:48
【问题描述】：

是否可以通过离线基本音频处理来检测单词边界以获得足够准确的 WPM* 估计值？我认为可以通过检测停顿（表示单词边界）来完成。它会跨语言并适用于所有语言吗？

在传统语音识别中[（不是/相对于）现代机器/深度学习语音识别]，哪个被认为是更容易/解决的部分，找到单词边界或将它们与正确的单词进行统计匹配？

我一直在使用的示例：web page with audio elements*、audio

在 Audacity 的波形视图上标记的单词边界：

我将在浏览器中使用来自 Web Audio API 的 MediaElementAudioSourceNode 和 AudioNode 进行操作。

*每分钟字数

*更多关于我正在做/想到的事情：我是forking Videospeed 扩展构建名为“Media Enhancer: Audio/Video Playback speed, Shortcuts & Controls”的扩展，您可以从名称、音频元素的播放速度、新的键盘快捷键、可选的计算 WPM 估计值（这就是我问这个问题的原因），包括我在内的高级用户还有更多。

【问题讨论】：

标签： speech-recognition web-audio-api speech-to-text speech audio-processing

【解决方案1】：

是否可以通过离线基本音频处理检测单词边界以获得足够准确的 WPM* 估计值？

不，相当于认字。

有很多算法被推荐用于语速估计，其中大多数只是通过检测音素甚至声音中的峰值来工作，你可以在这里查看示例

Robust Speech Rate Estimation for Spontaneous Speech Dagen Wang and Shrikanth S. Narayanan

最近的研究包括像这样的机器学习：

Online Speaking Rate Estimation Using Recurrent Neural Networks

【讨论】：