如何使用 melspectogram 将 wav 文件转换为 RGB 图像?

How to convert a wav file into RGB image with melspectogram?

我正在使用 1 秒到 4 秒的 wav 文件进行声音分类。 我想将 wav 转换为 224x224x3 图像,我可以将其收费到 Resnet 中进行分类 转换应该使用 melspectogram 感谢帮助

您可以使用 librosa 生成这样的梅尔频谱图:

import librosa
import librosa.display
import numpy as np
import matplotlib.pyplot as plt

y, sr = librosa.load(librosa.util.example_audio_file()) # your file
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000)
librosa.display.specshow(librosa.power_to_db(S, ref=np.max), fmax=8000)
plt.savefig('mel.png')

请注意,尽管这些是假色,但 RGB 在这里没有意义 - 也没有任何意义 multi-channel。使用适用于单通道的架构。