使用 Microsoft Cognitive 进行实时说话人识别

Real-time speaker recognition with Microsoft Cognitive

我正在尝试构建一个应用程序，通过使用 Microsoft Cognitive Speaker Recognition API 来解决说话人分类问题。

查看 sample project and reading the APIs documentation，我了解到应该通过向服务发送 wav 文件来完成识别，这违背了我实时进行的目标。

有人对此做过研究吗？使用这些 API 是否可行，或者我应该寻找另一条路？

注册需要30秒的数据。一旦你有了用户配置文件，你就可以从 1 秒的样本中识别用户，这样你就可以几乎实时地以非常小的延迟进行识别。要使用它，您需要设置 shortAudio parameter。很难想象识别工作会比这更快。

如果您需要一些不同的东西，可以使用 Kaldi 等开源语音工具包，它可以做更灵活的事情。

没有流方法，就像 Google 与语音 API 一样。注册新配置文件不需要 30 秒。在我最近的练习中——我在大约 10 秒内取得了成功。 MS API 的核心问题是对多个发言者的限制。您必须找到自己的方式将它们分成单独的音轨。否则它会识别第一个已知的声音。