可以使用 Librosa 将梅尔频谱图 PNG 转换为语音吗？

Question

我可以使用 python(librosa,scipy..)

将梅尔频谱图 png 转换为语音 'wav'

因为我有一个生成梅尔频谱图图像的 gan 项目，我不想再次将它们转换为语音

我的流程是：

1-将 wav 转换为 mel 频谱图并将结果保存为 png

2-将 png 结果提供给生成器

生成器的3-结果是mel-spectrogram 将结果保存为png

4-问题 => “再次将生成器的 PNG 结果转换为 WAV”

任何产生这个循环的解决方案或替代方案将不胜感激

Answer 1

如果你保存 melspectrogram .tiff 值不会改变，你可以看到灰度的频谱图

#from wav to tiff
y, sr = librosa.load(songname)
whale_song, _ = librosa.effects.trim(y)
n_fft=2048
hop_length=512
n_mels=128
S = librosa.feature.melspectrogram(whale_song, sr=sr, n_fft=n_fft, 
                                hop_length=hop_length, n_mels=n_mels)
from PIL import Image
im =Image.fromarray(S).convert('F') 
im.show()
im.save("/content/gdrive/My Drive/sp.tiff")

#from tiff to wav 
m=Image.open("/content/gdrive/My Drive/sp.tiff") 
import numpy as np
img=np.array(im)
wav=librosa.feature.inverse.mel_to_audio(img)
print(img)
import soundfile
soundfile.write("4.wav",wav,samplerate=sr)`

可以使用 Librosa 将梅尔频谱图 PNG 转换为语音吗？

Convert Mel-spectrogram PNG to Voice using Librosa is it possible?

python

spectrogram

librosa

generative-adversarial-network