哪个特征、算法对说话人验证有好处

Which feature, algorithm is good for Speaker Verification

我有一项任务是说话人验证

我的任务是计算两个音频语音之间的相似度,然后与阈值进行比较。 例如:两个音频之间的相似度得分为 70%,阈值为 50%。因此说话者是同一个人。

语音文本无关,可以是任何对话。

我有使用MFCC、GMM做说话人识别任务的实验,但这个任务是不同的,只是比较两个音频特征来获得相似度分数。我不知道哪个特征适合说话人验证,哪个算法可以帮助我计算 2 个模式之间的相似度分数。

希望得到大家的指点,

非常感谢。

最近最先进的是 xvectors:

Deep Neural Network Embeddings for Text-Independent Speaker Verification

Kaldi 中的实现是 here

我也在研究用于说话人验证的 TIMIT 数据集。我已经提取了 mfcc 特征并为此训练了一个 UBM,并针对每个 speaker.When 进行了适应,我使用了对角矩阵。 您如何测试 wav 文件?但是,当涉及到功能时,您可以使用间距和能量。