没有相位信息的频谱图的逆 STFT
Inverse STFT of spectrogram without phase information
尝试训练神经网络来处理音频数据,我想评估它的一些内部表征。其中之一是没有相位信息的幅度谱图,但 Hann windows.
之间有很高的重叠
有没有一种方法可以使用 tf.contrib.signal.inverse_stft
从这个只有幅度的频谱图生成音频信号?如果没有,是否有其他一些直接的方法(例如,影响白噪声带通滤波器总和的方法)来做到这一点?
我对tf的了解不多inverse_stft
;它似乎需要一个免费的 window 函数才能工作。
但是要在没有相位信息的情况下从其 STFT 估计原始波形,您可能需要查看 Griffin-Lim 算法或以 Mel 声谱图为条件的 WaveNet 声码器(可以从 STFT 的线性声谱图导出)。
Griffin-Lim 算法:https://github.com/bkvogel/griffin_lim
WaveNet 声码器:https://github.com/r9y9/wavenet_vocoder
尝试训练神经网络来处理音频数据,我想评估它的一些内部表征。其中之一是没有相位信息的幅度谱图,但 Hann windows.
之间有很高的重叠有没有一种方法可以使用 tf.contrib.signal.inverse_stft
从这个只有幅度的频谱图生成音频信号?如果没有,是否有其他一些直接的方法(例如,影响白噪声带通滤波器总和的方法)来做到这一点?
我对tf的了解不多inverse_stft
;它似乎需要一个免费的 window 函数才能工作。
但是要在没有相位信息的情况下从其 STFT 估计原始波形,您可能需要查看 Griffin-Lim 算法或以 Mel 声谱图为条件的 WaveNet 声码器(可以从 STFT 的线性声谱图导出)。
Griffin-Lim 算法:https://github.com/bkvogel/griffin_lim
WaveNet 声码器:https://github.com/r9y9/wavenet_vocoder