wav vs opus:语音到文本的转录质量

wav vs opus: speech-to-text transcript quality

我正在使用 IBM Watson 的语音转文本服务为几个电话音频文件 (8kHz) 生成转录本。我试过相同文件的 wav 和 opus 版本。使用 opus 格式时,我没有看到成绩单质量有任何重大下降。我正在考虑仅存储文件的 opus 格式以减少存储 space 要求并减少文件传输时间。一般而言,使用 wav 格式以获得更高质量的成绩单更好吗?如果我们使用 opus 格式,成绩单的质量是否有任何已知的下降?

只有您知道用例的要求(现在和将来),因此很难提供直接的答案。话虽如此,我个人认为作品质量非常好。

以下是一些您可能会感兴趣的有关 Opus 编解码器质量的链接:

如果比特率足够,OPUS 应该不会降低识别精度。您应该使用不会降低准确性的最低比特率,这可以通过实验确定(尝试不同的比特率并计算字错误率)。

您也可以使用 FLAC,它是无损的,与未压缩的 wav 相比,通常提供 5 倍的压缩系数。

最后,请记住,您不希望采样率高于 16kHz,因为这对识别没有用,而且会显着增加存储空间。