我想知道 'd-vector' 用于说话人分类

I want to know 'd-vector' for speaker diarization

在DNN模型中添加分段语音音频后,我了解到从最后一个隐藏层提取的特征的平均值为'd-vector'。 那样的话,我想知道即使我不学习就把说话人的声音放进去,能不能提取说话人的d-vector。 利用这个,当输入多人(使用mel-filterbank或MFCC)说话的语音文件的分段值时,我们是否可以像前面提到的那样通过对提取的d-vector值进行聚类来区分说话人?

回答您的问题:

  1. 训练模型后,只需通过网络前向传播输入向量即可获得d-vector。通常您会查看 ANN 的输出(最后一层),但您同样可以从倒数第二层(d-vector)检索值。

  2. 是的,您可以使用 d-vector 来区分扬声器,因为它以某种方式产生音频信号的高级嵌入,这对不同的人来说具有独特的功能。参见例如这个paper.