可以添加到 mfcc 功能的说话人识别功能/我可以做的事情以改进我的说话人识别神经网络

Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network

我正在尝试创建说话人识别机器学习。

目前我正在使用以下方案:

  1. 获取我的音频文件数据集并计算每 0.15 秒的音频文件 13 梅尔频率系数
  2. 我将每 13 个系数输入到一个基于 [conv, pool, norm]
  3. 的 3 个块的神经网络
  4. 对于测试文件,我对每个 13 系数向量的所有输出使用了多数

我通常对 3 个扬声器的识别率约为 85%,这并不令人惊讶,因此我决定要添加一些功能,但我不知道要添加什么...

有人建议我应该添加什么功能/我应该怎么做才能提高我的百分比?

我尝试使用一个调用 - "pitch" 的模块,它给我一个 wav 文件的音调,但它给了我非常随机的值(例如,对于同一个扬声器,它给了我 360、80、440对于前 3 个音频)

非常感谢您的帮助

你应该一次处理更长的块,在 0.15 秒内几乎不可能识别说话人的身份。

一般规则是您处理的音频越长,您的识别就越准确。大概1-3秒就好了,你需要把它们作为一个整体输入到神经网络中。

你可以google for x-vector on github,有很多实现,比如你可以在kaldi中找到一个。