哪种声音格式最适合 IBM Speech to Text?

Which is best sound format for IBM Speech to Text?

IBM 建议对提交到其 Watson Speech to Text 服务的音频使用 Opus 声音格式。这个想法是 Opus 是专门为语音设计的。

否则,它表示提交 flac 格式的音频比提交 mp3 格式的音频转录质量更好。后者具有体积小的明显优势。毕竟文件提交有 100Mb 的限制。所以你权衡你的需求。到目前为止一切都说得通。

但是看看在源 WAV 文件上完成的转换,Opus 文件的大小与 mp3 相当。

将 366Mb 的 wav 文件下采样到 8k 采样率(建议使用该服务的两个采样率之一),创建了一个 66.4Mb 的 wav 文件。将其转换为 flac、wav 和 opus 生成 flac:43.6Mb; mp3:6.2Mb;作品:9.8Mb.

那么 opus 真的是获得最准确转录的最佳选择吗?与 flac 相比,它是如此之小,这怎么可能?

Opus 旨在有效地编码语音。详细信息在链接的 wiki 文章中进行了解释,但只是为了给您一个要点,考虑到人类的发声范围相当有限,大约在 80 到 260 Hz 之间。另一方面,听力范围要大得多,高达 20000 赫兹。音乐编码器(如 mp3)必须大致在我们的听觉范围内工作,而语音专用编码器(如 Opus)可以专注于有效编码人声的重要内容,而不会对明显超出我们发声范围的内容感兴趣。我希望这能提供一些直觉,为什么 Opus 如此高效。

这是最好的吗?它有点自以为是,但是,是的,我认为它是目前最好的选择之一。在维基百科之后引用,Opus 取代了 Vorbis 和 Speex 用于新应用程序,并且一些盲听测试表明它在任何给定比特率下的质量都高于任何其他标准音频格式