Microsoft.CognitiveServices.Speech 中的自动语言检测

On automatic language detection in Microsoft.CognitiveServices.Speech

我们正在 Microsoft.CognitiveServices.Speech 中试验自动语言检测功能。我们的测试用例是转录实时的挪威新闻广播,其中一些 VB 可能是其他语言,例如来自美国正在进行的弹劾审判。我们在整个审判开始的现场直播中取得了很好的效果,但是在挪威新闻广播中间使用较短的英语 VB,识别器无法检测到语言发生了变化,结果相当难以理解(自然)。

我的问题是,在这种情况下,SpeechRecognizer 如何检测源语言的变化?我们可以做些什么来改善这种行为?如果我们能让这项工作可靠地进行,它将显着改善我们的结果。

提前感谢任何hints/tips。

对较短音频的要求之一是它们需要至少有 5 秒的人类语音,语言检测才能合理地估计口语。

SpeechRecognizer 还不能识别音频中的语言切换,这将在不久的将来添加。