Vosk-api python 用于语音识别。类似 google 的语音适应功能?
Vosk-api python for speech-recognition. Feature for google-like speech adaption?
So Vosk-api 是一款出色的离线语音识别器,拥有出色的支持,但在撰写本文时 post(2020 年 8 月 14 日)的文档非常差(或巧妙隐藏)
问题是:是否有任何类型的 google-语音识别器 功能的替代品,允许通过语音自适应进行额外的转录改进?
例如
"config": {
"encoding":"LINEAR16",
"sampleRateHertz": 8000,
"languageCode":"en-US",
"speechContexts": [{
"phrases": ["weather"]
}]
}
对于 Google 此配置意味着短语 weather 将具有更高的优先级,例如 whether which听起来一样。
或class代币?
我知道它可能不会在 python3 的 Vosk 中实现,但仍然...
参考资料如下:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation
Vosk模型适配信息可关注此文档:
https://alphacephei.com/vosk/adaptation
基本上有4个等级:
- 使用 list of words to recognize
更新小模型
- 离线更新小模型with the language model from texts
- 更新语言模型和字典inside the big model
- 微调声学model on your data
该过程不是完全自动化的,但您可以在群中寻求帮助。
So Vosk-api 是一款出色的离线语音识别器,拥有出色的支持,但在撰写本文时 post(2020 年 8 月 14 日)的文档非常差(或巧妙隐藏)
问题是:是否有任何类型的 google-语音识别器 功能的替代品,允许通过语音自适应进行额外的转录改进?
例如
"config": {
"encoding":"LINEAR16",
"sampleRateHertz": 8000,
"languageCode":"en-US",
"speechContexts": [{
"phrases": ["weather"]
}]
}
对于 Google 此配置意味着短语 weather 将具有更高的优先级,例如 whether which听起来一样。
或class代币? 我知道它可能不会在 python3 的 Vosk 中实现,但仍然...
参考资料如下:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation
Vosk模型适配信息可关注此文档:
https://alphacephei.com/vosk/adaptation
基本上有4个等级:
- 使用 list of words to recognize 更新小模型
- 离线更新小模型with the language model from texts
- 更新语言模型和字典inside the big model
- 微调声学model on your data
该过程不是完全自动化的,但您可以在群中寻求帮助。