为什么需要将音频分段 5-30 秒来构建声学模型？

Why do you need to segment the audios 5-30 seconds each for building the acoustic model?

Sphinx4 要求声学模型中的音频每次分段 5-30 秒。为什么？你如何分割音频？你什么时候将它分段为 5 秒或 10 秒或 25 秒？谢谢亲爱的先生！

根据经验，片段越长越好。要分割音频，您可能需要查看 sox。它有一个 trim 命令，可以方便地进行分段。

Sphinxtrain 执行文本与音频的对齐以进行训练。它试图将音素与各个音频片段相匹配。当音频很长时，很难获得良好的匹配，因为有太多的变体和错误的可能性，因此最好保持推荐的话语长度。

当你分割音频时，你需要在静音区域上分割，话语长度是多少并不重要，更重要的是在开头和结尾都有小的静音区域。小的沉默区域有助于训练者找到上下文。