使用 CNN 和 Librosa 进行语音识别：我可以结合 MFCC 和音频数据吗？

Speech recognition with CNNs and Librosa: Can I combine MFCC and audio data?

audio
dimensions
mfcc
conv-neural-network
librosa

我正在使用 Librosa 构建用于语音识别的 CNN。我已经为每个音频文件提取了 MFCC 并预处理了我的音频数据。音频数据的维度为 (93894, 8000)，MFCC 的维度为 (93894, 26, 16)。事实上，由于它们的尺寸不同，我无法将它们放入相同的模型中。我可以创建单独的模型，一些 1D 接收音频数据和一些 2D 接收 MFCC，然后看看哪个表现最好。但我希望将它们全部放入同一个模型中。有没有办法做到这一点？压平 MFCC 有意义吗？

如果没有集成架构，就不可能将不同维度的数据馈送到同一个神经网络中。我创建了不同的网络来处理 MFCC 和原始音频数据，就其价值而言，仅在 MFCC 上运行的模型更加高效和准确。

使用 CNN 和 Librosa 进行语音识别：我可以结合 MFCC 和音频数据吗？

Speech recognition with CNNs and Librosa: Can I combine MFCC and audio data?

audio

dimensions

mfcc

conv-neural-network

librosa