【问题标题】:How to detect word boundaries/estimate words count with audio processing? (w/o speech recognition)如何通过音频处理检测单词边界/估计单词数? (无语音识别)
【发布时间】:2018-10-03 12:29:48
【问题描述】:

是否可以通过离线基本音频处理来检测单词边界以获得足够准确的 WPM* 估计值?我认为可以通过检测停顿(表示单词边界)来完成。它会跨语言并适用于所有语言吗?

在传统语音识别中[(不是/相对于)现代机器/深度学习语音识别], 哪个被认为是更容易/解决的部分,找到单词边界或将它们与正确的单词进行统计匹配?

我一直在使用的示例:web page with audio elements*、audio

在 Audacity 的波形视图上标记的单词边界:

我将在浏览器中使用来自 Web Audio API 的 MediaElementAudioSourceNodeAudioNode 进行操作。

*每分钟字数


*更多关于我正在做/想到的事情: 我是forking Videospeed 扩展构建名为“Media Enhancer: Audio/Video Playback speed, Shortcuts & Controls”的扩展,您可以从名称、音频元素的播放速度、新的键盘快捷键、可选的计算 WPM 估计值(这就是我问这个问题的原因),包括我在内的高级用户还有更多。

【问题讨论】:

    标签: speech-recognition web-audio-api speech-to-text speech audio-processing


    【解决方案1】:

    是否可以通过离线基本音频处理检测单词边界以获得足够准确的 WPM* 估计值?

    不,相当于认字。

    有很多算法被推荐用于语速估计,其中大多数只是通过检测音素甚至声音中的峰值来工作,你可以在这里查看示例

    Robust Speech Rate Estimation for Spontaneous Speech Dagen Wang and Shrikanth S. Narayanan

    最近的研究包括像这样的机器学习:

    Online Speaking Rate Estimation Using Recurrent Neural Networks

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-11-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多