使用 CNN 和 Librosa 进行语音识别:我可以结合 MFCC 和音频数据吗?
Speech recognition with CNNs and Librosa: Can I combine MFCC and audio data?
我正在使用 Librosa 构建用于语音识别的 CNN。我已经为每个音频文件提取了 MFCC 并预处理了我的音频数据。音频数据的维度为 (93894, 8000),MFCC 的维度为 (93894, 26, 16)。事实上,由于它们的尺寸不同,我无法将它们放入相同的模型中。我可以创建单独的模型,一些 1D 接收音频数据和一些 2D 接收 MFCC,然后看看哪个表现最好。但我希望将它们全部放入同一个模型中。有没有办法做到这一点?压平 MFCC 有意义吗?
如果没有集成架构,就不可能将不同维度的数据馈送到同一个神经网络中。我创建了不同的网络来处理 MFCC 和原始音频数据,就其价值而言,仅在 MFCC 上运行的模型更加高效和准确。
我正在使用 Librosa 构建用于语音识别的 CNN。我已经为每个音频文件提取了 MFCC 并预处理了我的音频数据。音频数据的维度为 (93894, 8000),MFCC 的维度为 (93894, 26, 16)。事实上,由于它们的尺寸不同,我无法将它们放入相同的模型中。我可以创建单独的模型,一些 1D 接收音频数据和一些 2D 接收 MFCC,然后看看哪个表现最好。但我希望将它们全部放入同一个模型中。有没有办法做到这一点?压平 MFCC 有意义吗?
如果没有集成架构,就不可能将不同维度的数据馈送到同一个神经网络中。我创建了不同的网络来处理 MFCC 和原始音频数据,就其价值而言,仅在 MFCC 上运行的模型更加高效和准确。