是否有 speech-to-text 二值化的说话人错误率算法?

Is there an algorithm for Speaker Error Rate for speech-to-text diarization?

一些 speech-to-text 服务,例如 Google Speech-to-Text,通过二元化提供说话人区分,尝试在单个录音中识别和分离多个说话人。当多个发言人在会议室中共享一个麦克风时,通常需要这样做。

是否有算法和实现来计算说话人分离的正确性?

这将与 Word Error Rate 结合使用,后者通常用于测试基线转录的正确性。

通常使用的方法似乎是 NIST 在 NIST-RT 项目中定义的二值化错误率 (DER)。

一个较新的评估指标是 DIHARD II: The Second DIHARD Speech Diarization Challenge 中引入的 Jaccard 错误率 (JER)。

衡量这些的两个项目包括:

DER 在这些论文中被引用: