我可以使用 IBM speech-to-text 的 'word_confidence' 来学习发音吗?

Can I use 'word_confidence' from IBM speech-to-text for pronunciation learning?

我计划制作一个平台,通过说话和检查 IBM Speech-to-Text 返回的置信度 API(如果小于 85%)来开发用户对特定单词的发音他们应该再试一次)。我可以在这种情况下使用 'word_confidence',还是不应该这样使用它们?

值得一试,但我可以看到一些障碍。

你打算如何解释口音和方言?南方口音与中西部口音一样可以理解和正确。

如果您只发出一个单词的语音音频文件进行处理,那么 STT 服务将无法利用上下文来确定实际说的是什么单词,同音字将特别棘手。

你有两个选择:
1.word_alternatives 作为替代选项的一部分,但您将获得所有替代响应中所有单词的置信度。

2.keyword 匹配置信度。这很可能是您的最佳选择。

It's a good project. Worth a try.

@chughts 的解释是正确的,我在 IBM Speech rec 中遇到过口音问题。

如果 IBM 不是您的限制,那么您可能想要使用 Google 的演讲 API。它给你一堆口音。对于我的用例,始终具有更高的准确性(置信度)。

但由于您的 objective 本身取决于 "confidence level",那么它(google 语音录制)可能对您有利或不利。