卷积神经网络的输入数据

Input data for convolutional neural network

我正在尝试学习深度学习,特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在,据我所知,CNN 通常用于图像和物体识别,因此在使用音频时,人们经常使用频谱图(特别是梅尔频谱图)而不是时域中的信号。我的问题是,使用频谱图的图像(即 RGB 或灰度值)作为网络的输入更好,还是应该直接使用频谱图的二维幅度值?它甚至有什么不同吗?

谢谢。

频谱图是一个可爱的表示,特别是用于描述过程。从功能上讲,它只是输入数据的简化,不添加任何信息,并且会损失一点点准确性——这可能无关紧要。预处理不会给你带来任何好处,所以只需使用 2d 数据并让 CNN 从那里获取信息。

通常图像具有局部模式。它是如此自然,因此通过应用卷积 window 我们可以尝试提取一些局部连接特征因此,如果您在时域或频域中使用一些频谱图像,则没有问题。但令人惊奇的问题是,如果我们直接使用光谱数据会怎么样? 我看过一个演示文稿,他们将 CNN 应用于给出上下文的下一个单词预测。在那件事中,输入是词向量。更重要的是数字。所以他们使用了 CNN 层(矩形过滤器)来提取特征。 因此,在这种情况下,如果数据具有某种自然生成模式,则完全没有问题。