Google Cloud Speech API 与 Web Speech API 的单词错误率

Word error rates for Google Cloud Speech API vs Web Speech API

我目前正在使用 W3C Web Speech API 西班牙语和普通话。整体识别还可以,但错误较多(尤其是单个词),有时转写的西班牙语词会随意加重音,如lo siento ==> lo síento.

我正在考虑切换到更稳健和准确的 API 并找到了 Google Speech API。虽然 Web Speech API 是免费的,但我宁愿为准确性付费(较低的错误率)。一般来说,我不要求转录长音频文件(通常最多 6-8 个单词的句子,但最常见的是 1-4 个单词的句子)并打算从浏览器进行这些调用。

我找不到关于这两个 API 性能的文档,因此任何有助于做出转换决定的帮助都会有所帮助。

Google语音api也不完美,你可以从专门的解决方案中获得最大的准确性。

直接从浏览器调用并不是 Google Speech API 的真正选择,因为你必须在浏览器中公开你的 API 键,这是个坏主意,你无论如何都必须维护服务器基础结构。