除了Google那个returns的中期结果,还有语音识别API吗?
Is there any speech recognition API besides Google that returns interim results?
我正在寻找一种语音识别 API,即 return 用户说话时的中间结果,类似于 Google 在其主页上所做的(https://www.google.com ).我正在寻找支持法语的 API。我想做的是创建一个与 Google vocal search.
类似的 Web 应用程序
- Google 不建议将演讲 API 用于专业发展,因为它经常更改并且没有完整记录。
- IBM Watson 不支持法语
- AT&T 演讲 API 没有 return 中期结果
- CMU Sphinx return 令人难以置信的糟糕结果(请在此处查看演示:http://syl22-00.github.io/pocketsphinx.js/live-demo.html)
- Nuance 产品似乎不是为 Web 应用程序制作的。 (如果你知道我应该如何使用它们,我很感兴趣!)
许多语音转文本应用程序都使用 Nuance Communications 开发的语音识别技术。与 Web 应用程序配合良好的 SDK 是他们的 Server SDK,它支持将流式音频转换为文本。除英语和德语外,它还支持法语。要使用它,您可能需要通过 AJAX 请求将音频输入流式传输到将处理它的服务器,然后接受来自您的 AJAX 请求的文本作为 XMLHTTPResponse。
Microsoft 的 Project Oxford Speech Recognition API,被 Cortana 和 Skype Translator 使用,满足您的两个标准:它支持法语(和其他 6 种语言)和 returns partial/interim/online 流式音频假设
(顺便说一句,在使用 Pocketsphinx 进行在线识别时,导致准确率极低的常见问题是错误的 CMN(倒谱均值归一化)。当您给 pocketsphinx 一段完整的音频进行处理时,它会计算整个音频的 CMN话语,但是当您将音频流式传输到它时,默认情况下它不会计算 CMN。一种解决方案是给它一个完整的话语,检索由 pocketsphinx 计算的 CMN,然后将该 CMN 用于流式音频。请注意,CMN 与每个音频 channel/environment,并且 pocketsphinx 的 Python 接口不提供 CMN 数据的接口。如果这是你想调查的路线,我有一个补丁。)
我正在寻找一种语音识别 API,即 return 用户说话时的中间结果,类似于 Google 在其主页上所做的(https://www.google.com ).我正在寻找支持法语的 API。我想做的是创建一个与 Google vocal search.
类似的 Web 应用程序- Google 不建议将演讲 API 用于专业发展,因为它经常更改并且没有完整记录。
- IBM Watson 不支持法语
- AT&T 演讲 API 没有 return 中期结果
- CMU Sphinx return 令人难以置信的糟糕结果(请在此处查看演示:http://syl22-00.github.io/pocketsphinx.js/live-demo.html)
- Nuance 产品似乎不是为 Web 应用程序制作的。 (如果你知道我应该如何使用它们,我很感兴趣!)
许多语音转文本应用程序都使用 Nuance Communications 开发的语音识别技术。与 Web 应用程序配合良好的 SDK 是他们的 Server SDK,它支持将流式音频转换为文本。除英语和德语外,它还支持法语。要使用它,您可能需要通过 AJAX 请求将音频输入流式传输到将处理它的服务器,然后接受来自您的 AJAX 请求的文本作为 XMLHTTPResponse。
Microsoft 的 Project Oxford Speech Recognition API,被 Cortana 和 Skype Translator 使用,满足您的两个标准:它支持法语(和其他 6 种语言)和 returns partial/interim/online 流式音频假设
(顺便说一句,在使用 Pocketsphinx 进行在线识别时,导致准确率极低的常见问题是错误的 CMN(倒谱均值归一化)。当您给 pocketsphinx 一段完整的音频进行处理时,它会计算整个音频的 CMN话语,但是当您将音频流式传输到它时,默认情况下它不会计算 CMN。一种解决方案是给它一个完整的话语,检索由 pocketsphinx 计算的 CMN,然后将该 CMN 用于流式音频。请注意,CMN 与每个音频 channel/environment,并且 pocketsphinx 的 Python 接口不提供 CMN 数据的接口。如果这是你想调查的路线,我有一个补丁。)