为什么 google 的语音命令数据集的采样率为 16kHz

Why Speech Commands dataset by google has a sampling rate of 16kHz

Google 已发布 Speech Commands dataset。我看到所有音频文件的采样率为 16kHz。这意味着 8kHz 及以上的任何信息都是不可靠的(人类听觉范围为 20Hz 至 20kHz)。这对于语音识别来说非常重要,因为(不是大多数但)很多重要数据都在 8khz 到 20khz 的范围内,丢失这意味着语音识别的准确性和可靠性会降低。

为什么google选择了16kHz?我错过了什么吗?

谢谢。

This is extremely critical regarding voice recognition, because (not most but) a lot of important data is within the rage of 8khz to 20khz

实际上不是,许多实验表明使用更高的采样率几乎没有任何改进。这就是为什么每个人都使用 16khz 的原因。