Python 使用声音文件的音频文件结构问题

Question

我有一个 5 类的音频文件数据集。我想增加每个文件夹中的数据量。数据是 .wav 文件。当我添加更多 .wav 文件时，我收到几个错误，指出 wav 文件结构不同。在运行一段示例代码后看到wav文件的数据结构：

import soundfile as sf
speech_array, sampling_rate = sf.read('EGY001436.wav')
print(speech_array)
print("Length: ", len(speech_array))
print("Sample rate: ", sampling_rate)

数据的示例音频文件具有以下结构。这是原始数据结果

[-0.00924683 -0.00228882  0.00366211 ...  0.02062988  0.02731323
  0.02255249]
Length:  198880
Sample rate:  16000

我要添加的文件具有以下结构

[[ 0.05569458  0.05569458]
 [ 0.05276489  0.05276489]
 [ 0.04959106  0.04959106]
 ...
 [-0.02230835 -0.02230835]
 [-0.01397705 -0.01397705]
 [-0.00616455 -0.00616455]]
Length:  8820000
Sample rate:  44100

我尝试多次转置和重新采样数据，但结果是一个非常奇怪的声音。 有什么解决办法吗？我想更改第二个音频文件的结构，使其与第一个相同。我也不想使用 Soundfile 以外的其他库音频 1 时长：12 秒音频 2 时长：3 分 21 秒

请忽略时长差异

谢谢

Answer 1

我找到了答案，它运行良好here

Python 使用声音文件的音频文件结构问题

Python audio files structure problem using soundfile

python

audio

wav

voice-recognition

python-3.x