微软翻译语音缺少标点符号

Microsoft Translator Speech missing punctuation

我正在使用 MS Translator Speech WebSocket API 进行实时语音识别和翻译。问题是有时识别的文本没有标点符号(逗号、句号等)。转录的文本在其他方面看起来不错。我还收到了合成翻译的MP3。

它看起来完全随机,我可以多次发送相同的音频,有些回复有标点符号,有些则没有。我以正确的格式和接近实时的速率发送音频,例如我每 ~100 毫秒发送 100 毫秒样本。识别的语言是西班牙语。

这是一个常见问题还是有其他问题?

部分识别和最终识别有不同的响应类型。随着演讲的继续进行,您会收到部分认可,并在演讲结束时收到最后一次认可。部分结果可能缺少标点符号和大小写,最后一个结果将有大小写和标点符号。如果您想忽略没有大小写和标点符号的回复,您需要过滤以仅查看最终回复。

切换到语音预览API 解决了缺少标点符号的问题。目前只有 SDK,原始 WebSocket API 尚未记录。我已成功连接并使用 WS API、.