Python 使用声音文件的音频文件结构问题
Python audio files structure problem using soundfile
我有一个 5 类 的音频文件数据集。我想增加每个文件夹中的数据量。数据是 .wav 文件。当我添加更多 .wav 文件时,我收到几个错误,指出 wav 文件结构不同。
在运行一段示例代码后看到wav文件的数据结构:
import soundfile as sf
speech_array, sampling_rate = sf.read('EGY001436.wav')
print(speech_array)
print("Length: ", len(speech_array))
print("Sample rate: ", sampling_rate)
数据的示例音频文件具有以下结构。这是原始数据结果
[-0.00924683 -0.00228882 0.00366211 ... 0.02062988 0.02731323
0.02255249]
Length: 198880
Sample rate: 16000
我要添加的文件具有以下结构
[[ 0.05569458 0.05569458]
[ 0.05276489 0.05276489]
[ 0.04959106 0.04959106]
...
[-0.02230835 -0.02230835]
[-0.01397705 -0.01397705]
[-0.00616455 -0.00616455]]
Length: 8820000
Sample rate: 44100
我尝试多次转置和重新采样数据,但结果是一个非常奇怪的声音。
有什么解决办法吗?我想更改第二个音频文件的结构,使其与第一个相同。我也不想使用 Soundfile 以外的其他库
音频 1 时长:12 秒
音频 2 时长:3 分 21 秒
请忽略时长差异
谢谢
我找到了答案,它运行良好here
我有一个 5 类 的音频文件数据集。我想增加每个文件夹中的数据量。数据是 .wav 文件。当我添加更多 .wav 文件时,我收到几个错误,指出 wav 文件结构不同。 在运行一段示例代码后看到wav文件的数据结构:
import soundfile as sf
speech_array, sampling_rate = sf.read('EGY001436.wav')
print(speech_array)
print("Length: ", len(speech_array))
print("Sample rate: ", sampling_rate)
数据的示例音频文件具有以下结构。这是原始数据结果
[-0.00924683 -0.00228882 0.00366211 ... 0.02062988 0.02731323
0.02255249]
Length: 198880
Sample rate: 16000
我要添加的文件具有以下结构
[[ 0.05569458 0.05569458]
[ 0.05276489 0.05276489]
[ 0.04959106 0.04959106]
...
[-0.02230835 -0.02230835]
[-0.01397705 -0.01397705]
[-0.00616455 -0.00616455]]
Length: 8820000
Sample rate: 44100
我尝试多次转置和重新采样数据,但结果是一个非常奇怪的声音。 有什么解决办法吗?我想更改第二个音频文件的结构,使其与第一个相同。我也不想使用 Soundfile 以外的其他库 音频 1 时长:12 秒 音频 2 时长:3 分 21 秒
请忽略时长差异
谢谢
我找到了答案,它运行良好here