为什么 scipy 和 librosa 读取 wav 文件不同？

Question

所以我试图从一个波形文件中获取样本，我注意到它是一个不同的值，具体取决于我使用的是 scipy 还是 librosa。

sampleFloats, fs = librosa.load('hi.wav', sr=48000)
print('{0:.15f}'.format(sampleFloats[len(sampleFloats)-1]))

from scipy.io.wavfile import read as wavread
# from python_speech_features import mfcc

[samplerate, x] = wavread('hi.wav') # x is a numpy array of integer, representing the samples 

# scale to -1.0 -- 1.0
if x.dtype == 'int16':
    nb_bits = 16 # -> 16-bit wav files
elif x.dtype == 'int32':
    nb_bits = 32 # -> 32-bit wav files
max_nb_bit = float(2 ** (nb_bits - 1))
samples = x / (max_nb_bit + 1.0) # samples is a numpy array of float representing the samples 

print(samples[len(samples)-1])

打印语句如下：

0.001251220703125
0.001274064182641886

文件的采样率为 48000。

为什么它们可能不同？ librosa 使用不同的标准化吗？

Answer 1

类型不匹配。不仅要打印值，还要打印它的类型通常很有用。在这种情况下，由于规范化的完成方式，samples 值的类型为 float64，而 librosa returns float32.

可以帮助弄清楚如何归一化（另外，如上所述，它确实是max_nb_bit - 1，而不是+）

为什么 scipy 和 librosa 读取 wav 文件不同？

Why are scipy and librosa different for reading wav file?

python

wav

scipy

wave

librosa