分段语音和清音？

Segment voice and unvoiced speech?

我想知道如何对音频文件进行语音分段。例如。父亲，我想是的，F-a-th-er。

我想过使用过零来检测浊音和清音区域，但我很确定。

谢谢。

你提到的过零是一种方法，如解释的那样。在 this 篇文章中。其他包括神经网络或隐马尔可夫模型。

要获得任何像样的结果，您还应该有一个语言模型。使用句子/单词然后再将它们翻译成音素要容易得多。为什么？因为上下文对于计算机系统——通常甚至是我们人类——来说是理解这个词所必需的。上下文为音素提供了约束，没有它很难（不可能？）工作。