如何使用音频句子数据集训练 HMM 进行语音识别？

How to train HMM with audio senteces dataset for speech recognition?

我已经阅读了一些 HMM 和 MFCC 的期刊和论文，但我仍然对它如何与我的数据集（句子音频数据集）逐步工作感到困惑。

我的数据集示例（音频表格）：

你好早上好
祝你考试顺利
等大约343个音频数据和20个扬声器（6800个音频数据）

我所知道的:

我的句子数据集用于获取转换概率
嗯表示是音素
39个MFCC特征用于训练HMM模型

我的问题：

我需要把我的句子切成单词还是只用句子来训练 HMM 型号？
火车需要音素数据集吗？如果是的话我也需要训练它使用 HMM 吗？如果不是，我的程序如何识别 HMM 预测输入的音素？
我必须首先执行哪些步骤？

注意：我正在使用 python，我使用 hmmlearn 和 python_speech_features 作为我的库。

我需要将我的句子切割成单词还是只使用句子来训练 HMM 模型？

理论上你只需要句子和音素。但是孤立的单词可能对您的模型有用（它会增加训练数据的大小）

火车需要音素数据集吗？如果是的话我也需要训练它使用 HMM 吗？如果不是，我的程序如何识别 HMM 预测输入的音素？

你需要音素，否则如果没有任何孤立音素的例子，你的模型将很难找到正确的音素分割。你应该首先在孤立的音素上训练你的 HMM 状态，然后添加其余的数据。如果您有足够的数据，您的模型或许可以在没有孤立音素示例的情况下进行学习，但我不会反对这一点。

我必须首先执行哪些步骤？

构建您的音素示例并使用它们来训练您不对音素之间的转换建模的简单 HMM 模型。一旦你的隐藏状态有了一些关于音素的信息，你就可以继续对孤立的单词和句子进行训练。