在正则化中，为什么我们使用θ^2而不是θ？

Question

正则化为lambda*sum(θ^2)

Answer 1

_{我在你之前的问题中这个（见最后一段），但我会再试一次。}

使用 sum(θ) 正则化的问题是你可能有 θ 参数相互抵消

示例：

θ_1 = +1000000
θ_2 = -1000001

这里的sum(θ)是+1000000 -1000001 = -1 比较小

sum(θ²) 是 1000000² + (-1000001)² 很大。

如果你使用 sum(θ) 你可能最终没有正则化（这是目标），因为大的 θ 值逃脱了正则化，因为项相互抵消。

您可以使用 sum(|θ|)，具体取决于您的 search/optimisation 算法。但我知道 θ²（L2 范数）很受欢迎，并且适用于梯度下降。

In the regularization,why we use θ^2 rather than θ？