我可以使用 IBM speech-to-text 的 'word_confidence' 来学习发音吗？

Can I use 'word_confidence' from IBM speech-to-text for pronunciation learning?

我计划制作一个平台，通过说话和检查 IBM Speech-to-Text 返回的置信度 API（如果小于 85%）来开发用户对特定单词的发音他们应该再试一次）。我可以在这种情况下使用 'word_confidence'，还是不应该这样使用它们？

值得一试，但我可以看到一些障碍。

你打算如何解释口音和方言？南方口音与中西部口音一样可以理解和正确。

如果您只发出一个单词的语音音频文件进行处理，那么 STT 服务将无法利用上下文来确定实际说的是什么单词，同音字将特别棘手。

你有两个选择：
1.word_alternatives 作为替代选项的一部分，但您将获得所有替代响应中所有单词的置信度。

2.keyword 匹配置信度。这很可能是您的最佳选择。

It's a good project. Worth a try.

@chughts 的解释是正确的，我在 IBM Speech rec 中遇到过口音问题。

如果 IBM 不是您的限制，那么您可能想要使用 Google 的演讲 API。它给你一堆口音。对于我的用例，始终具有更高的准确性（置信度）。

但由于您的 objective 本身取决于 "confidence level"，那么它（google 语音录制）可能对您有利或不利。