Microsoft Speech-to-Text:缺少部分文字记录

Microsoft Speech-to-Text: Part of transcript missing

在测试用于视频字幕的 Microsoft 语音转文本时,我们有时(不经常)遇到 "dropouts",即没有转录一大块音频。在这些情况下,我们 而不是 得到 ResultReason.NoMatch

代码在 C# 中,使用 Microsoft.CognitiveServices.Speech (1.10.0)。我们使用 OutputFormat.DetailedspeechConfig.RequestWordLevelTimestamps(),并使用 AudioConfig.FromWavFileInput 提供音频。

我有一个小示例 wav 文件,它可以重现(至少用我的代码)。有人愿意 运行 使用相同的 wav 文件 (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1) 对他们的代码进行测试吗?抱歉,我没有英文示例(这是瑞典语音频),但是当我 运行 这个时,时间码(查看单词级别的时间戳)之间大约有一个差距。 14 秒和 30 秒进入音频。

其他人可以重现这个吗,或者我的代码中是否存在一些模糊的错误(这与 MS 的示例代码非常接近)?

提前感谢您的任何意见! :-)

我已经下载了音频文件并重现了同样的问题。缺少 14 到 30 秒音频的识别结果。我打算把它转发给相关的小组看看。一旦我听到什么,我会回到这个话题。

抱歉回复晚了,感谢您使用 Microsoft Cognitive Services Speech SDK!

-魏

语音运行时团队已确定问题的原因。这是由于误用了解码器参数。我们将在几天内将修复程序部署到该服务。

-魏