适合多 class class 化的深度学习结构

Appropriate Deep Learning Structure for multi-class classification

我有以下数据

         feat_1    feat_2 ... feat_n   label
gene_1   100.33     10.2  ... 90.23    great
gene_2   13.32      87.9  ... 77.18    soso
....
gene_m   213.32     63.2  ... 12.23    quitegood

M 的大小很大~30K 行,N 小得多~10 列。 我的问题是适合学习的深度学习结构是什么 并像上面那样测试数据。

在一天结束时,用户将给出一个带有表达的基因向量。

gene_1   989.00
gene_2   77.10
...
gene_N   100.10

并且系统将标记每个基因应用的标签,例如很棒或一般等等...

我所说的结构是指其中之一:

扩展@sung-kim 的评论:

  • CNN 主要用于计算机成像中的问题,例如 class化图像。它们模仿动物的视觉皮层,它们 基本上有一个连接网络,这样就有 有一些重叠的特征。通常他们需要很多 数据,超过 30k 个例子。
  • 自动编码器用于特征生成和降维。它们从每一层上的许多神经元开始,然后这个数字减少,然后再次增加。每个对象都经过自身训练。这导致中间层(神经元数量少)在低维度中提供有意义的特征投影 space。
  • 虽然我对 DBN 了解不多,但它们似乎是自动编码器的监督扩展。要训​​练的参数很多。
  • 同样,我对玻尔兹曼机知之甚少,但它们并未广泛用于此类问题(据我所知)

不过对于所有建模问题,我建议从最基本的模型开始寻找信号。在担心深度学习之前,也许 Logistic Regression 是一个不错的起点。

如果你已经到了想要尝试深度学习的地步,无论出于何种原因。那么对于这种类型的数据,一个基本的前馈网络是最好的起点。就深度学习而言,30k 数据点并不是一个很大的数字,因此最好始终从一个小网络(1-3 个隐藏层,5-10 个神经元)开始,然后逐渐变大。不过,在执行参数优化时,请确保你有一个合适的验证集。如果您是 scikit-learn API 的粉丝,我建议 Keras 是一个不错的起点

进一步评论,在进行任何训练之前,您需要在 class 标签上使用 OneHotEncoder

编辑

我从赏金和评论中了解到,您希望更多地了解这些网络的工作原理。请参阅如何构建前馈模型并进行一些简单参数优化的示例

import numpy as np
from sklearn import preprocessing
from keras.models import Sequential
from keras.layers.core import Dense, Activation, Dropout

# Create some random data
np.random.seed(42)
X = np.random.random((10, 50))

# Similar labels
labels = ['good', 'bad', 'soso', 'amazeballs', 'good']
labels += labels
labels = np.array(labels)
np.random.shuffle(labels)

# Change the labels to the required format
numericalLabels = preprocessing.LabelEncoder().fit_transform(labels)
numericalLabels = numericalLabels.reshape(-1, 1)
y = preprocessing.OneHotEncoder(sparse=False).fit_transform(numericalLabels)

# Simple Keras model builder
def buildModel(nFeatures, nClasses, nLayers=3, nNeurons=10, dropout=0.2):
    model = Sequential()
    model.add(Dense(nNeurons, input_dim=nFeatures))
    model.add(Activation('sigmoid'))
    model.add(Dropout(dropout))
    for i in xrange(nLayers-1):
        model.add(Dense(nNeurons))
        model.add(Activation('sigmoid'))
        model.add(Dropout(dropout))
    model.add(Dense(nClasses))
    model.add(Activation('softmax'))

    model.compile(loss='categorical_crossentropy', optimizer='sgd')

    return model

# Do an exhaustive search over a given parameter space
for nLayers in xrange(2, 4):
    for nNeurons in xrange(5, 8):
        model = buildModel(X.shape[1], y.shape[1], nLayers, nNeurons)
        modelHist = model.fit(X, y, batch_size=32, nb_epoch=10,
                              validation_split=0.3, shuffle=True, verbose=0)
        minLoss = min(modelHist.history['val_loss'])
        epochNum = modelHist.history['val_loss'].index(minLoss)
        print '{0} layers, {1} neurons best validation at'.format(nLayers, nNeurons),
        print 'epoch {0} loss = {1:.2f}'.format(epochNum, minLoss)

输出

2 layers, 5 neurons best validation at epoch 0 loss = 1.18
2 layers, 6 neurons best validation at epoch 0 loss = 1.21
2 layers, 7 neurons best validation at epoch 8 loss = 1.49
3 layers, 5 neurons best validation at epoch 9 loss = 1.83
3 layers, 6 neurons best validation at epoch 9 loss = 1.91
3 layers, 7 neurons best validation at epoch 9 loss = 1.65

如果您正在处理原始数据并希望自动找到有助于实现分类目标的特征,则建议使用深度学习结构。但是根据您的列的名称和它们的数量(只有 10 个),您似乎已经设计了您的功能。

出于这个原因,您可以使用标准的多层神经网络并使用监督学习(反向传播)。这样的网络将具有与您的列数 (10) 相匹配的输入数量,然后是多个隐藏层,然后是一个输出层,其神经元数量与您的标签数量相匹配。您可以尝试使用不同数量的隐藏层、神经元、不同的神经元类型(sigmoid、tanh、线性整流等)等等。

或者,您可以使用原始数据(如果可用),然后使用 DBN(众所周知,它们非常稳健,可以在不同问题上取得良好的结果)或自动编码器。

如果您希望输出被认为是标签的分数(正如我从您的问题中了解到的那样),请尝试监督多 class 逻辑回归 class 器。 (最高分取标签)。

如果你一定要用到深度学习

一个简单的前馈神经网络应该做的,通过反向传播监督学习。输入层有N个神经元,可以加一到两个隐藏层,不多于此。没有必要去“deep”并为这个数据添加更多的层,如果有更多的层,数据容易过度拟合的风险这样做很难判断问题出在哪里,测试的准确性也会受到很大的影响。

如果您需要弄清楚哪些特征很重要(或可能存在的任何相关性),那么简单地绘制或可视化数据即使用 t-sne 可能是一个好的开始。

然后您可以使用这些特征维度的更高幂/或增加它们的分数权重。

对于像这样的问题,深度学习可能不太适合。但是像这样的更简单的 ANN 架构应该能很好地工作,具体取决于数据。