音频分割

Audio segmentantion

我想做的是 "separate" 音频文件(wav 文件)中辅音的元音。例如,一个文件将是这句话:"I am fine" 并且我必须将元音与辅音分开。在 "separation" 之后,我可以忽略辅音,因为它们在这个项目中并不重要。另外,我必须忽略语音中的停顿(单词之间的停顿)。所以这是我的问题,如何将元音和辅音分开。

有人建议我可以使用 fcm 算法或直方图方法进行分割。我搜索了这两种方法,但是找不到可以帮助我的方法。

有人可以指导我完成必须执行的步骤或给我一些有用的链接吗?我想提一下我还可以使用其他一些方法(不一定是 fcm 或直方图)。

谢谢!

您可以使用基于隐马尔可夫模型 (HMM) 的分割方法将您的语音信号分割成相应的音素。 您需要正确转录语音信号和字母到声音 (LTS) 规则才能执行此操作。 一旦你正确地分割了语音,你就可以轻松地分离元音。 这个 link 会很有用 http://hts.sp.nitech.ac.jp/