混合正则化器有意义吗？

Question

混合正则项有意义吗？例如，在第一层使用 L1 到 select 特征，其余使用 L2？

我创建了这个模型：

model = Sequential()
# the input layer uses L1 to partially serve as a feature selection layer
model.add(Dense(10, input_dim = train_x.shape[1], activation = 'swish', kernel_regularizer=regularizers.l1(0.001)))
model.add(Dense(20, activation = 'swish', kernel_regularizer=regularizers.l2(0.001)))
model.add(Dense(20, activation = 'swish', kernel_regularizer=regularizers.l2(0.001)))
model.add(Dense(10, activation = 'softmax'))

但我不确定混合 L1 和 L2 是否是个好主意，对我来说，将 L1 作为特征 select 或在输入层中似乎是合乎逻辑的。但在任何地方，我都只看到对所有层使用相同正则化器的代码。

（该模型似乎给出了相当不错的结果，在多类分类问题中 >95% 的正确预测）

Answer 1

在不同层添加不同的正则化不是问题。有关于这个主题的论文Sparse input neural network。不过，这里有几点需要注意。

在第一层添加l1正则化本身不做特征选择。如果一个特征没有被选中，它就不能连接到下一层的任何节点。 l1 正则化将无法完全删除特征的连接。您将需要 group lasso regularization (also called the l_{1,p} norm)。
keras 本身并没有很好地支持这些正则化的实现，尤其是对于稀疏性。您将需要在每次迭代中手动添加阈值函数。可以在 Sparse input neural network.

混合正则化器有意义吗？

Does it make sense to mix regularizers?

neural-network

regularized

keras