音频分割

Audio segmentantion

我想做的是 "separate" 音频文件（wav 文件）中辅音的元音。例如，一个文件将是这句话："I am fine" 并且我必须将元音与辅音分开。在 "separation" 之后，我可以忽略辅音，因为它们在这个项目中并不重要。另外，我必须忽略语音中的停顿（单词之间的停顿）。所以这是我的问题，如何将元音和辅音分开。

有人建议我可以使用 fcm 算法或直方图方法进行分割。我搜索了这两种方法，但是找不到可以帮助我的方法。

有人可以指导我完成必须执行的步骤或给我一些有用的链接吗？我想提一下我还可以使用其他一些方法（不一定是 fcm 或直方图）。

谢谢！

您可以使用基于隐马尔可夫模型 (HMM) 的分割方法将您的语音信号分割成相应的音素。您需要正确转录语音信号和字母到声音 (LTS) 规则才能执行此操作。一旦你正确地分割了语音，你就可以轻松地分离元音。这个 link 会很有用 http://hts.sp.nitech.ac.jp/

音频分割

Audio segmentantion

audio

histogram

neural-network

threshold

fuzzy-c-means