Microsoft Speech-to-Text:缺少部分文字记录
Microsoft Speech-to-Text: Part of transcript missing
在测试用于视频字幕的 Microsoft 语音转文本时,我们有时(不经常)遇到 "dropouts",即没有转录一大块音频。在这些情况下,我们 而不是 得到 ResultReason.NoMatch
。
代码在 C# 中,使用 Microsoft.CognitiveServices.Speech (1.10.0)。我们使用 OutputFormat.Detailed
和 speechConfig.RequestWordLevelTimestamps()
,并使用 AudioConfig.FromWavFileInput
提供音频。
我有一个小示例 wav 文件,它可以重现(至少用我的代码)。有人愿意 运行 使用相同的 wav 文件 (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1) 对他们的代码进行测试吗?抱歉,我没有英文示例(这是瑞典语音频),但是当我 运行 这个时,时间码(查看单词级别的时间戳)之间大约有一个差距。 14 秒和 30 秒进入音频。
其他人可以重现这个吗,或者我的代码中是否存在一些模糊的错误(这与 MS 的示例代码非常接近)?
提前感谢您的任何意见! :-)
我已经下载了音频文件并重现了同样的问题。缺少 14 到 30 秒音频的识别结果。我打算把它转发给相关的小组看看。一旦我听到什么,我会回到这个话题。
抱歉回复晚了,感谢您使用 Microsoft Cognitive Services Speech SDK!
-魏
语音运行时团队已确定问题的原因。这是由于误用了解码器参数。我们将在几天内将修复程序部署到该服务。
-魏
在测试用于视频字幕的 Microsoft 语音转文本时,我们有时(不经常)遇到 "dropouts",即没有转录一大块音频。在这些情况下,我们 而不是 得到 ResultReason.NoMatch
。
代码在 C# 中,使用 Microsoft.CognitiveServices.Speech (1.10.0)。我们使用 OutputFormat.Detailed
和 speechConfig.RequestWordLevelTimestamps()
,并使用 AudioConfig.FromWavFileInput
提供音频。
我有一个小示例 wav 文件,它可以重现(至少用我的代码)。有人愿意 运行 使用相同的 wav 文件 (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1) 对他们的代码进行测试吗?抱歉,我没有英文示例(这是瑞典语音频),但是当我 运行 这个时,时间码(查看单词级别的时间戳)之间大约有一个差距。 14 秒和 30 秒进入音频。
其他人可以重现这个吗,或者我的代码中是否存在一些模糊的错误(这与 MS 的示例代码非常接近)?
提前感谢您的任何意见! :-)
我已经下载了音频文件并重现了同样的问题。缺少 14 到 30 秒音频的识别结果。我打算把它转发给相关的小组看看。一旦我听到什么,我会回到这个话题。
抱歉回复晚了,感谢您使用 Microsoft Cognitive Services Speech SDK!
-魏
语音运行时团队已确定问题的原因。这是由于误用了解码器参数。我们将在几天内将修复程序部署到该服务。
-魏