我如何计算音频文件中说话的人数

how can I count the number of people speek in an audio file

我正在从事音频项目。我的目标是计算在音频文件中发言的人数。我们可以认为我们已经从该音频中去除了噪音。(例如,如果有两个人在音频中说话,程序可以 return 2 如果有三个人在该音频中说话,程序将 return 3...)。我不需要语音识别;我只想知道有多少人在谈论。解决这个问题最好的乳清是什么。

如果我没猜错,您正在寻找 speaker diarization。在此线程中,有人为 python 列出了一些选项。 Python Speaker Recognition

否则,如果您想采取更简单的方法,可以让 google 和他们的 Cloud Speech-to-text API 一起为您完成。不是免费的,但也很酷。 更多信息就在这里: https://cloud.google.com/speech-to-text/docs/multiple-voices