除了Google那个returns的中期结果,还有语音识别API吗?

Is there any speech recognition API besides Google that returns interim results?

我正在寻找一种语音识别 API,即 return 用户说话时的中间结果,类似于 Google 在其主页上所做的(https://www.google.com ).我正在寻找支持法语的 API。我想做的是创建一个与 Google vocal search.

类似的 Web 应用程序

许多语音转文本应用程序都使用 Nuance Communications 开发的语音识别技术。与 Web 应用程序配合良好的 SDK 是他们的 Server SDK,它支持将流式音频转换为文本。除英语和德语外,它还支持法语。要使用它,您可能需要通过 AJAX 请求将音频输入流式传输到将处理它的服务器,然后接受来自您的 AJAX 请求的文本作为 XMLHTTPResponse。

Microsoft 的 Project Oxford Speech Recognition API,被 Cortana 和 Skype Translator 使用,满足您的两个标准:它支持法语(和其他 6 种语言)和 returns partial/interim/online 流式音频假设

(顺便说一句,在使用 Pocketsphinx 进行在线识别时,导致准确率极低的常见问题是错误的 CMN(倒谱均值归一化)。当您给 pocketsphinx 一段完整的音频进行处理时,它会计算整个音频的 CMN话语,但是当您将音频流式传输到它时,默认情况下它不会计算 CMN。一种解决方案是给它一个完整的话语,检索由 pocketsphinx 计算的 CMN,然后将该 CMN 用于流式音频。请注意,CMN 与每个音频 channel/environment,并且 pocketsphinx 的 Python 接口不提供 CMN 数据的接口。如果这是你想调查的路线,我有一个补丁。)