分段语音和清音?

Segment voice and unvoiced speech?

我想知道如何对音频文件进行语音分段。 例如。父亲,我想是的,F-a-th-er。

我想过使用过零来检测浊音和清音区域,但我很确定。

谢谢。

你提到的过零是一种方法,如解释的那样。在 this 篇文章中。其他包括神经网络或隐马尔可夫模型。

要获得任何像样的结果,您还应该有一个语言模型。使用句子/单词然后再将它们翻译成音素要容易得多。为什么?因为上下文对于计算机系统——通常甚至是我们人类——来说是理解这个词所必需的。上下文为音素提供了约束,没有它很难(不可能?)工作。