Mel mfcc的组成部分有哪些
What are the components of the Mel mfcc
在查看这行代码的输出:
mfccs = librosa.feature.mfcc(y=librosa_audio, sr=librosa_sample_rate, n_mfcc=40)
print("MFCC Shape = ", mfccs.shape)
我收到 MFCC Shape = (40,1876)
的回复。这两个数字代表什么?我查看了 librosa website 但仍然无法破译这两个值是什么。
任何见解将不胜感激!
第一个维度(40)是MFCC的个数系数,第二个维度(1876)是时间帧的个数。 MFCC 的数量由 n_mfcc
指定,时间帧的数量由音频的长度(样本)除以 hop_length
.
给出
要了解 MFCC 本身的含义,您应该了解计算它们所需的步骤:
- 频谱图,使用 Short-Time-Fourier-Transform (STFT)
- Mel 频谱图,将 Mel scale filterbanks 应用于 STFT
- 梅尔频率倒谱系数,来自在梅尔频谱图上应用DCT transform。
一个好的书面解释器是Haytham Fayek: Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between
The Sound of AI: Mel-Frequency Cepstral Coefficients Explained Easily.
是一个很好的视频解释器
在查看这行代码的输出:
mfccs = librosa.feature.mfcc(y=librosa_audio, sr=librosa_sample_rate, n_mfcc=40)
print("MFCC Shape = ", mfccs.shape)
我收到 MFCC Shape = (40,1876)
的回复。这两个数字代表什么?我查看了 librosa website 但仍然无法破译这两个值是什么。
任何见解将不胜感激!
第一个维度(40)是MFCC的个数系数,第二个维度(1876)是时间帧的个数。 MFCC 的数量由 n_mfcc
指定,时间帧的数量由音频的长度(样本)除以 hop_length
.
要了解 MFCC 本身的含义,您应该了解计算它们所需的步骤:
- 频谱图,使用 Short-Time-Fourier-Transform (STFT)
- Mel 频谱图,将 Mel scale filterbanks 应用于 STFT
- 梅尔频率倒谱系数,来自在梅尔频谱图上应用DCT transform。
一个好的书面解释器是Haytham Fayek: Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between The Sound of AI: Mel-Frequency Cepstral Coefficients Explained Easily.
是一个很好的视频解释器