来自 mfcc 特征的高斯混合模型

gaussian mixture model from mfcc features

我正在尝试使用扬声器音频样本的 MFCC 功能创建 GMM 扬声器模型。我有 18 维 MFCC 特征,针对特定的扬声器。

要在 Java 中创建 GMM 模型,我有这个 GaussianMixture.java class,需要:

  1. double[] 分量权重
  2. 矩阵[]表示
  3. 矩阵[]协方差

您可以参考class这里GaussianMixture.java

我无法理解的是如何提供我提取的 MFCC 数据的均值和协方差。

我是否必须为 18 个维度中的每一个维度计算 means?如果是这样,componentWeights 是什么?

如有不明之处请指正。谢谢

你要运行EM algorithm,它会估计高斯参数。或者你可以对现有的 GMM 进行 MAP 适配,MAP 适配需要的数据比训练少,但需要预训练的 GMM 模型。

实现有很多,比如here