没有相位信息的频谱图的逆 STFT

Inverse STFT of spectrogram without phase information

尝试训练神经网络来处理音频数据,我想评估它的一些内部表征。其中之一是没有相位信息的幅度谱图,但 Hann windows.

之间有很高的重叠

有没有一种方法可以使用 tf.contrib.signal.inverse_stft 从这个只有幅度的频谱图生成音频信号?如果没有,是否有其他一些直接的方法(例如,影响白噪声带通滤波器总和的方法)来做到这一点?

我对tf的了解不多inverse_stft;它似乎需要一个免费的 window 函数才能工作。

但是要在没有相位信息的情况下从其 STFT 估计原始波形,您可能需要查看 Griffin-Lim 算法或以 Mel 声谱图为条件的 WaveNet 声码器(可以从 STFT 的线性声谱图导出)。

Griffin-Lim 算法:https://github.com/bkvogel/griffin_lim

WaveNet 声码器:https://github.com/r9y9/wavenet_vocoder