考虑到 torchaudio 中的变换,window 长度等以音频帧或毫秒为单位

Considering transforms in torchaudio, is window length etc. in audio frames or milliseconds

我正在使用 torchaudio 预处理录音。 documentation 列出 win_length (int) – Window size. (Default: n_fft) 此值(默认为 400)是否代表 window 长度(以帧或毫秒为单位)?

n_fft 变量用于 Spectrogram class。 forward function documentation 提及

where n_fft is the number of Fourier bins