Soundfile 以两种不同的格式导入音频
Soundfile imports audio in two different formats
我正在尝试使用 soundfile.read()
预处理要在神经网络中使用的音频文件,但该函数正在为具有相同采样率和长度的不同 .FLAC 文件设置不同格式的返回数据。例如,调用 data, sr = soundfile.read(audiofile1)
生成了一个形状为 data.shape = (48000, 2)
的数组(其中各个元素值要么是振幅 0,要么是 NumPy float64 中的负振幅),而调用 data, sr = soundfile.read(audiofile2)
生成了一个数组形状为 data.shape = (48000,)
(其中各个元素值不同 NumPy float64)。
此外,如果有帮助的话,audiofile1
是从通过 PyAudio 获取的录音中提取的录音,而 audiofile2
是来自 LibriSpeech 语料库的样本。
所以,我的问题是双重的:
为什么 soundfile.read()
会产生两种不同的数据格式,如何确保函数 returns 以后的数组格式相同?
您的 audiofile2
样本是单声道的,而您的 audiofile1
录音是立体声的(即您可能使用配置了 channels=2
的 PyAudio 流进行录音)。所以我建议你先弄清楚你的应用程序需要单声道还是立体声。
如果您真正关心的是单声道音频信号,您可以通过平均通道将立体声(或更普遍的 N 声道)音频转换为单声道:
data, sr = soundfile.read(audiofile)
if np.dim(data)>1:
data = np.mean(data,axis=1)
如果您需要立体声音频,那么您可以通过复制现有的通道来创建一个额外的通道(尽管这不会添加通常的附加信息,例如不同通道之间的相位或幅度差异):
if np.dim(data)<2:
data = np.tile(data,(2,1)).transpose()
就这么简单:
data, sr = soundfile.read(audiofile2, always_2d=True)
有了这个,data.shape
将始终有两个元素; data.shape[0]
将是帧数,data.shape[1]
将是通道数。
我正在尝试使用 soundfile.read()
预处理要在神经网络中使用的音频文件,但该函数正在为具有相同采样率和长度的不同 .FLAC 文件设置不同格式的返回数据。例如,调用 data, sr = soundfile.read(audiofile1)
生成了一个形状为 data.shape = (48000, 2)
的数组(其中各个元素值要么是振幅 0,要么是 NumPy float64 中的负振幅),而调用 data, sr = soundfile.read(audiofile2)
生成了一个数组形状为 data.shape = (48000,)
(其中各个元素值不同 NumPy float64)。
此外,如果有帮助的话,audiofile1
是从通过 PyAudio 获取的录音中提取的录音,而 audiofile2
是来自 LibriSpeech 语料库的样本。
所以,我的问题是双重的:
为什么 soundfile.read()
会产生两种不同的数据格式,如何确保函数 returns 以后的数组格式相同?
您的 audiofile2
样本是单声道的,而您的 audiofile1
录音是立体声的(即您可能使用配置了 channels=2
的 PyAudio 流进行录音)。所以我建议你先弄清楚你的应用程序需要单声道还是立体声。
如果您真正关心的是单声道音频信号,您可以通过平均通道将立体声(或更普遍的 N 声道)音频转换为单声道:
data, sr = soundfile.read(audiofile)
if np.dim(data)>1:
data = np.mean(data,axis=1)
如果您需要立体声音频,那么您可以通过复制现有的通道来创建一个额外的通道(尽管这不会添加通常的附加信息,例如不同通道之间的相位或幅度差异):
if np.dim(data)<2:
data = np.tile(data,(2,1)).transpose()
就这么简单:
data, sr = soundfile.read(audiofile2, always_2d=True)
有了这个,data.shape
将始终有两个元素; data.shape[0]
将是帧数,data.shape[1]
将是通道数。