基于隐马尔可夫模型的语音识别程序的输入

Input for Hidden Markov Model-based speech recognition program

我打算构建一个基于隐马尔可夫模型的语音识别程序。不幸的是,我不知道如何获取输入声音序列,也不知道如何使用它。谁能告诉我从声音文件格式(即 .wav、.mp3 等)读取值并在 C++ 中将配乐分割成片段的一般方法是什么?

一般的方法是将输入声音转换为特征向量序列(通常是 MFCC)。 CMU Sphinx wiki, and described in details in HTK Book. You might also want to study the general-purpose openSMILE toolkit 中对这个过程进行了一般性描述,以了解它在 C++ 中是如何完成的。