分割语音和清音？答案

【问题标题】：Segment voice and unvoiced speech?分割语音和清音？
【发布时间】：2018-07-31 12:35:10
【问题描述】：

我想知道如何对音频文件进行语音分割。例如。父亲，我想应该是，F-a-th-er。

我很想使用过零来检测有声和无声区域，但我很确定。

谢谢。

【问题讨论】：

【解决方案1】：

您提到的过零是一种方法，例如解释。在this 文章中。其他包括神经网络或隐马尔可夫模型。

要获得任何体面的结果，您还应该有一个语言模型。使用句子/单词要容易得多，然后才将它们翻译成音素。为什么？因为上下文对于计算机系统——甚至我们人类——理解这个词来说是必不可少的。上下文为音素提供了约束，没有它很难（不可能？）工作。

【讨论】：

感谢您的回答。语言模型是什么意思？
考虑英语、波兰语和中文。声音会大不相同，所以有意义的话。也以 HMM 为例。有了良好的先验，您可以更轻松地（=更少的数据）获得良好的结果。
据我了解，HMM 有 3 个主要特征，状态定义（在本例中为 1 - 浊音和 2 - 清音，初始状态和隐藏状态。对吧？什么是隐藏状态什么时候区分浊音和清音？还有初始状态？