如何提高 Watson Speech to Text 的准确性?
How can I improve Watson Speech to Text accuracy?
我了解 Watson Speech To Text 在某种程度上针对口语对话和 1 或 2 位发言者进行了校准。我也知道它可以比 WAV 和 OGG 更好地处理 FLAC。
我想知道如何从声学上改进算法识别。
我的意思是,增加音量有帮助吗?也许使用一些压缩过滤器?降噪?
什么样的预处理可以帮助这项服务?
提高基本模型(非常准确但也非常通用)准确性的最佳方法是使用 Watson STT 定制服务:https://www.ibm.com/watson/developercloud/doc/speech-to-text/custom.html。这将让您创建一个适合您领域的具体情况的自定义模型。如果您的域与基本模型捕获的域不是很匹配,那么您可以期待识别准确度的大幅提升。
关于您的评论“我也知道它可以比 WAV 和 OGG 更好地处理 FLAC”,事实并非如此。 Watson STT 服务全面支持 flac、wav、ogg 和其他格式(请参阅文档的这一部分:https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats)。
我了解 Watson Speech To Text 在某种程度上针对口语对话和 1 或 2 位发言者进行了校准。我也知道它可以比 WAV 和 OGG 更好地处理 FLAC。
我想知道如何从声学上改进算法识别。
我的意思是,增加音量有帮助吗?也许使用一些压缩过滤器?降噪?
什么样的预处理可以帮助这项服务?
提高基本模型(非常准确但也非常通用)准确性的最佳方法是使用 Watson STT 定制服务:https://www.ibm.com/watson/developercloud/doc/speech-to-text/custom.html。这将让您创建一个适合您领域的具体情况的自定义模型。如果您的域与基本模型捕获的域不是很匹配,那么您可以期待识别准确度的大幅提升。
关于您的评论“我也知道它可以比 WAV 和 OGG 更好地处理 FLAC”,事实并非如此。 Watson STT 服务全面支持 flac、wav、ogg 和其他格式(请参阅文档的这一部分:https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats)。