如何从音频输入中识别多个说话者及其文本？

How to identify multiple speakers and their text from an audio input?

speech-recognition
ibm-watson
microsoft-cognitive
google-speech-api
dialogflow-es

我正在使用 Microsoft 的认知服务。我有一个音频输入，需要识别多个扬声器及其各自的文本。

据我了解，Speaker Rekognition API 可以识别不同的个体，Bing Speech API 可以将语音转换为文本。但是，要同时执行这两项操作，我需要手动将音频文件拆分成多个片段（基于 pause/silence），然后将音频流发送到各个服务。有更好的方法吗？我应该切换到任何其他生态系统，例如 AWS Lex/Polly 或 Google 的产品吗？

您应该尝试 IBM Watson Speech to Text API。他们有一个名为 Speaker Diarization 的功能，对您的用例很有用。

如何从音频输入中识别多个说话者及其文本？

How to identify multiple speakers and their text from an audio input?

speech-recognition

ibm-watson

microsoft-cognitive

google-speech-api

dialogflow-es