在正则化中,为什么我们使用θ^2而不是θ?

In the regularization,why we use θ^2 rather than θ?

正则化为lambda*sum(θ^2)

我在你之前的问题中这个(见最后一段),但我会再试一次。

使用 sum(θ) 正则化的问题是你可能有 θ 参数相互抵消

示例:

θ_1 = +1000000
θ_2 = -1000001

这里的sum(θ)是+1000000 -1000001 = -1 比较小

sum(θ²) 是 1000000² + (-1000001)² 很大。

如果你使用 sum(θ) 你可能最终没有正则化(这是目标),因为大的 θ 值逃脱了正则化,因为项相互抵消。

您可以使用 sum(|θ|),具体取决于您的 search/optimisation 算法。但我知道 θ²(L2 范数)很受欢迎,并且适用于梯度下降。