有没有办法通过 MS 说话人识别将 MS 语音连接到文本?

Is there a way to interface MS speech to text with ms speaker recognition?

我正在使用 microsoft speech to text 设置一个项目。它工作正常,我能够将我所说的内容转录成文本,稍后将其发送给其他 signalR 订阅者。

但是,我现在需要将其与说话人识别连接起来。换句话说:我希望我的语音转文本只识别少数说话者。

目前我使用 classic TranslationRecognizer class,它获取默认麦克风并即时翻译。

然后我用StartContinuousRecognitionAsyncclass开始识别。

有没有办法在发送到翻译服务之前获取音频通量以检查用户是否正确,然后在验证OK之后恢复标准执行?

我认为这将是最好的主意,但我愿意接受任何想法或架构更改。

感谢您的意见

感谢您联系我们!目前,说话人二值化(即谁在说话)仅在我们的 batch transcription service, but not yet for real-time speech recognition. However, if you are able to separate speakers by yourself, e.g. based on audio channel, you can feed audio stream for a particular speaker via AudioInputStream interface 语音 SDK 中可用以进行识别。

谢谢。