对MFCC处理感到困惑

Confused about MFCC processing

所以我在 python 中使用 Librosa 库使用 MFCC 提取了一个音频文件特征。这是代码的样子:

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是,为什么我们必须转置并获得MFCC的平均值?

取转置 MFCC 的平均值显示 mel-coefficients 随着时间的推移的平均能量。 这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

举个例子,下图(a)是一些噪声的21阶mel-spectrum,(b)是每个时间帧的平均能量。 这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。

如评论中所述,这不是强制性的,这完全取决于您的情况。

该图摘自以下出版物。

毕崇光等。 “Familylog:用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。 IEEE, 2017.