为什么需要将音频分段 5-30 秒来构建声学模型?

Why do you need to segment the audios 5-30 seconds each for building the acoustic model?

Sphinx4 要求声学模型中的音频每次分段 5-30 秒。为什么?你如何分割音频?你什么时候将它分段为 5 秒或 10 秒或 25 秒?谢谢亲爱的先生!

根据经验,片段越长越好。要分割音频,您可能需要查看 sox。它有一个 trim 命令,可以方便地进行分段。

Sphinxtrain 执行文本与音频的对齐以进行训练。它试图将音素与各个音频片段相匹配。当音频很长时,很难获得良好的匹配,因为有太多的变体和错误的可能性,因此最好保持推荐的话语长度。

当你分割音频时,你需要在静音区域上分割,话语长度是多少并不重要,更重要的是在开头和结尾都有小的静音区域。小的沉默区域有助于训练者找到上下文。