我如何计算音频文件中说话的人数

how can I count the number of people speek in an audio file

我正在从事音频项目。我的目标是计算在音频文件中发言的人数。我们可以认为我们已经从该音频中去除了噪音。（例如，如果有两个人在音频中说话，程序可以 return 2 如果有三个人在该音频中说话，程序将 return 3...）。我不需要语音识别；我只想知道有多少人在谈论。解决这个问题最好的乳清是什么。

如果我没猜错，您正在寻找 speaker diarization。在此线程中，有人为 python 列出了一些选项。 Python Speaker Recognition

否则，如果您想采取更简单的方法，可以让 google 和他们的 Cloud Speech-to-text API 一起为您完成。不是免费的，但也很酷。更多信息就在这里： https://cloud.google.com/speech-to-text/docs/multiple-voices