我可以使用 IBM speech-to-text 的 'word_confidence' 来学习发音吗?
Can I use 'word_confidence' from IBM speech-to-text for pronunciation learning?
我计划制作一个平台,通过说话和检查 IBM Speech-to-Text 返回的置信度 API(如果小于 85%)来开发用户对特定单词的发音他们应该再试一次)。我可以在这种情况下使用 'word_confidence',还是不应该这样使用它们?
值得一试,但我可以看到一些障碍。
你打算如何解释口音和方言?南方口音与中西部口音一样可以理解和正确。
如果您只发出一个单词的语音音频文件进行处理,那么 STT 服务将无法利用上下文来确定实际说的是什么单词,同音字将特别棘手。
你有两个选择:
1.word_alternatives 作为替代选项的一部分,但您将获得所有替代响应中所有单词的置信度。
2.keyword 匹配置信度。这很可能是您的最佳选择。
It's a good project. Worth a try.
@chughts 的解释是正确的,我在 IBM Speech rec 中遇到过口音问题。
如果 IBM 不是您的限制,那么您可能想要使用 Google 的演讲 API。它给你一堆口音。对于我的用例,始终具有更高的准确性(置信度)。
但由于您的 objective 本身取决于 "confidence level",那么它(google 语音录制)可能对您有利或不利。
我计划制作一个平台,通过说话和检查 IBM Speech-to-Text 返回的置信度 API(如果小于 85%)来开发用户对特定单词的发音他们应该再试一次)。我可以在这种情况下使用 'word_confidence',还是不应该这样使用它们?
值得一试,但我可以看到一些障碍。
你打算如何解释口音和方言?南方口音与中西部口音一样可以理解和正确。
如果您只发出一个单词的语音音频文件进行处理,那么 STT 服务将无法利用上下文来确定实际说的是什么单词,同音字将特别棘手。
你有两个选择:
1.word_alternatives 作为替代选项的一部分,但您将获得所有替代响应中所有单词的置信度。
2.keyword 匹配置信度。这很可能是您的最佳选择。
It's a good project. Worth a try.
@chughts 的解释是正确的,我在 IBM Speech rec 中遇到过口音问题。
如果 IBM 不是您的限制,那么您可能想要使用 Google 的演讲 API。它给你一堆口音。对于我的用例,始终具有更高的准确性(置信度)。
但由于您的 objective 本身取决于 "confidence level",那么它(google 语音录制)可能对您有利或不利。