评估 L1 和 L2 类型的乘数的值
Evaluating the value of the multipliers of L1 and L2 type
我有一个非常简单的问题。当我们使用$L_1$and/or$L_2$类型的正则化项进行梯度下降时,即用
扩展损失函数$L$
$$
L_r=L+l_1\sum_i| \pi_i |+l_2 \sum_j ||\pi_j||^2
$$
为什么我们在梯度下降的更新规则中不包含$l_1$和$l_2$变量?
这是一个超参数,不能同时更新权重和这个参数。如果您将同时使用权重对其进行优化,关于训练和(或)测试集的损失函数 - 是的,此参数将变为 0 并且它将惩罚部分归零。因为当你训练复杂的模型时——它很容易过度拟合你的数据集,并完美地预测值,在这种情况下,优化过程可以做的最好的事情是最小化损失,当模型完美地标记数据集时——将这个参数归零。因此,旨在防止过度拟合的参数将无济于事。
但是你可以做到grid search
我有一个非常简单的问题。当我们使用$L_1$and/or$L_2$类型的正则化项进行梯度下降时,即用
扩展损失函数$L$$$ L_r=L+l_1\sum_i| \pi_i |+l_2 \sum_j ||\pi_j||^2 $$
为什么我们在梯度下降的更新规则中不包含$l_1$和$l_2$变量?
这是一个超参数,不能同时更新权重和这个参数。如果您将同时使用权重对其进行优化,关于训练和(或)测试集的损失函数 - 是的,此参数将变为 0 并且它将惩罚部分归零。因为当你训练复杂的模型时——它很容易过度拟合你的数据集,并完美地预测值,在这种情况下,优化过程可以做的最好的事情是最小化损失,当模型完美地标记数据集时——将这个参数归零。因此,旨在防止过度拟合的参数将无济于事。
但是你可以做到grid search