检测元音和辅音？

Detect vowels and consonants?

我正在研究语音信号处理领域，我想检测音频文件中的元音和辅音并为其添加时间标签。

我想要这样的东西（只是举个例子，不确定它是如何工作的）：

使用单词完成：D [0-3 毫秒]，o [ 4-7 毫秒]、n [8-11 毫秒] 和 e [12-13 毫秒].

我想我遇到了某种分类问题，我考虑过使用 支持向量机 或 隐马尔可夫模型 或 循环神经网络.

关于我应该如何做的任何建议，元音或辅音检测，时间标记。

我可能会使用 MATLAB。你怎么看？

谢谢。

以防万一，您更喜欢使用 HMM，我建议使用 HTK（隐马尔可夫工具包）有一个 precise/detail 教程，但它是用 C (ANSI) 编写的。使用 HMM 你必须先训练 HMM（监督），当然你需要完整的 phonems/tag 标记 train/examples。最后你需要做的是所谓的音素识别来识别其他voice/test音频。之后，每个识别的持续时间phonems/tag可以在HTK识别后计算

检测元音和辅音？

Detect vowels and consonants?

speech-recognition

signals

signal-processing

speech-synthesis