Vosk-api python 用于语音识别。类似 google 的语音适应功能?

Vosk-api python for speech-recognition. Feature for google-like speech adaption?

So Vosk-api 是一款出色的离线语音识别器,拥有出色的支持,但在撰写本文时 post(2020 年 8 月 14 日)的文档非常差(或巧妙隐藏)

问题是:是否有任何类型的 google-语音识别器 功能的替代品,允许通过语音自适应进行额外的转录改进?

例如

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}

对于 Google 此配置意味着短语 weather 将具有更高的优先级,例如 whether which听起来一样。

或class代币? 我知道它可能不会在 python3 的 Vosk 中实现,但仍然...

参考资料如下:

https://cloud.google.com/speech-to-text/docs/class-tokens


https://cloud.google.com/speech-to-text/docs/speech-adaptation

Vosk模型适配信息可关注此文档:

https://alphacephei.com/vosk/adaptation

基本上有4个等级:

  1. 使用 list of words to recognize
  2. 更新小模型
  3. 离线更新小模型with the language model from texts
  4. 更新语言模型和字典inside the big model
  5. 微调声学model on your data

该过程不是完全自动化的,但您可以在群中寻求帮助。