Mel mfcc的组成部分有哪些

What are the components of the Mel mfcc

在查看这行代码的输出:

mfccs = librosa.feature.mfcc(y=librosa_audio, sr=librosa_sample_rate, n_mfcc=40)
print("MFCC Shape = ", mfccs.shape)

我收到 MFCC Shape = (40,1876) 的回复。这两个数字代表什么?我查看了 librosa website 但仍然无法破译这两个值是什么。

任何见解将不胜感激!

第一个维度(40)是MFCC的个数系数,第二个维度(1876)是时间帧的个数。 MFCC 的数量由 n_mfcc 指定,时间帧的数量由音频的长度(样本)除以 hop_length.

给出

要了解 MFCC 本身的含义,您应该了解计算它们所需的步骤:

一个好的书面解释器是Haytham Fayek: Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between The Sound of AI: Mel-Frequency Cepstral Coefficients Explained Easily.

是一个很好的视频解释器