检测元音和辅音?

Detect vowels and consonants?

我正在研究语音信号处理领域,我想检测音频文件中的元音和辅音并为其添加时间标签。

我想要这样的东西(只是举个例子,不确定它是如何工作的):

使用单词 完成D [0-3 毫秒],o [ 4-7 毫秒]、n [8-11 毫秒] 和 e [12-13 毫秒].

我想我遇到了某种分类问题,我考虑过使用 支持向量机 隐马尔可夫模型 循环神经网络.

关于我应该如何做的任何建议,元音或辅音检测,时间标记。

我可能会使用 MATLAB。你怎么看?

谢谢。

以防万一,您更喜欢使用 HMM,我建议使用 HTK(隐马尔可夫工具包)有一个 precise/detail 教程,但它是用 C (ANSI) 编写的。使用 HMM 你必须先训练 HMM(监督),当然你需要完整的 phonems/tag 标记 train/examples。最后你需要做的是所谓的音素识别来识别其他voice/test音频。之后,每个识别的持续时间phonems/tag可以在HTK识别后计算