服务识别文本,直到我暂停,之后什么都没有

Service recognize text until I pause and nothing after

我正在开发一个应用程序,它可以让用户讲一个短篇故事(1-2 分钟),然后运行将它写成文本。

我使用 MediaCapture 进行流传输,并将录制的语音与分块 t运行sfer 编码发送到 Bing 语音 API。除了一个问题外,一切都很好:如果用户停顿了几秒钟,并且在识别出停顿后他没有继续说什么。

我对录制的 wav 文件进行了同样的尝试,以确保分块的 t运行sfer 不是此问题的根源。但它产生了相同的行为。所以 t运行sfer 是正确的,我得到了有效的响应,但仅针对记录的第一部分。

有人 运行 遇到同样的问题吗?这是设计使然吗?如果是:是否有解决此行为的方法?

您可能想要使用 SDK。它更适合像听写这样的长格式场景。在连接关闭之前只有几秒钟的等待时间 API 但 SDK 的等待时间更长。