对MFCC处理感到困惑

Question

所以我在 python 中使用 Librosa 库使用 MFCC 提取了一个音频文件特征。这是代码的样子：

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是，为什么我们必须转置并获得MFCC的平均值？

Answer 1

取转置 MFCC 的平均值显示 mel-coefficients 随着时间的推移的平均能量。这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

举个例子，下图(a)是一些噪声的21阶mel-spectrum，(b)是每个时间帧的平均能量。这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。

如评论中所述，这不是强制性的，这完全取决于您的情况。

该图摘自以下出版物。

毕崇光等。 “Familylog：用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。 IEEE, 2017.

对MFCC处理感到困惑

Confused about MFCC processing

python

audio

feature-extraction

mfcc

librosa