基于隐马尔可夫模型的语音识别程序的输入

Input for Hidden Markov Model-based speech recognition program

c++
speech-recognition
hidden-markov-models

我打算构建一个基于隐马尔可夫模型的语音识别程序。不幸的是，我不知道如何获取输入声音序列，也不知道如何使用它。谁能告诉我从声音文件格式（即 .wav、.mp3 等）读取值并在 C++ 中将配乐分割成片段的一般方法是什么？

一般的方法是将输入声音转换为特征向量序列（通常是 MFCC）。 CMU Sphinx wiki, and described in details in HTK Book. You might also want to study the general-purpose openSMILE toolkit 中对这个过程进行了一般性描述，以了解它在 C++ 中是如何完成的。

基于隐马尔可夫模型的语音识别程序的输入

Input for Hidden Markov Model-based speech recognition program

c++

speech-recognition

hidden-markov-models