我想知道 'd-vector' 用于说话人分类

I want to know 'd-vector' for speaker diarization

audio
artificial-intelligence
mfcc
deep-learning
lstm

在DNN模型中添加分段语音音频后，我了解到从最后一个隐藏层提取的特征的平均值为'd-vector'。那样的话，我想知道即使我不学习就把说话人的声音放进去，能不能提取说话人的d-vector。利用这个，当输入多人（使用mel-filterbank或MFCC）说话的语音文件的分段值时，我们是否可以像前面提到的那样通过对提取的d-vector值进行聚类来区分说话人？

回答您的问题：

训练模型后，只需通过网络前向传播输入向量即可获得d-vector。通常您会查看 ANN 的输出（最后一层），但您同样可以从倒数第二层（d-vector）检索值。
是的，您可以使用 d-vector 来区分扬声器，因为它以某种方式产生音频信号的高级嵌入，这对不同的人来说具有独特的功能。参见例如这个paper.

我想知道 'd-vector' 用于说话人分类

I want to know 'd-vector' for speaker diarization

audio

artificial-intelligence

mfcc

deep-learning

lstm