【问题标题】:Segment voice and unvoiced speech?分割语音和清音?
【发布时间】:2018-07-31 12:35:10
【问题描述】:

我想知道如何对音频文件进行语音分割。 例如。父亲,我想应该是,F-a-th-er。

我很想使用过零来检测有声和无声区域,但我很确定。

谢谢。

【问题讨论】:

    标签: audio signals signal-processing speech


    【解决方案1】:

    您提到的过零是一种方法,例如解释。在this 文章中。其他包括神经网络或隐马尔可夫模型。

    要获得任何体面的结果,您还应该有一个语言模型。使用句子/单词要容易得多,然后才将它们翻译成音素。为什么?因为上下文对于计算机系统——甚至我们人类——理解这个词来说是必不可少的。上下文为音素提供了约束,没有它很难(不可能?)工作。

    【讨论】:

    • 感谢您的回答。语言模型是什么意思?
    • 考虑英语、波兰语和中文。声音会大不相同,所以有意义的话。也以 HMM 为例。有了良好的先验,您可以更轻松地(=更少的数据)获得良好的结果。
    • 据我了解,HMM 有 3 个主要特征,状态定义(在本例中为 1 - 浊音和 2 - 清音,初始状态和隐藏状态。对吧?什么是隐藏状态什么时候区分浊音和清音?还有初始状态?
    猜你喜欢
    • 2014-12-19
    • 1970-01-01
    • 1970-01-01
    • 2015-02-02
    • 1970-01-01
    • 2018-09-25
    • 1970-01-01
    • 1970-01-01
    • 2018-01-13
    相关资源
    最近更新 更多