在正则化中,为什么我们使用θ^2而不是θ?
In the regularization,why we use θ^2 rather than θ?
正则化为lambda*sum(θ^2)
我在你之前的问题中这个(见最后一段),但我会再试一次。
使用 sum(θ)
正则化的问题是你可能有 θ 参数相互抵消
示例:
θ_1 = +1000000
θ_2 = -1000001
这里的sum(θ)
是+1000000 -1000001 = -1 比较小
sum(θ²)
是 1000000² + (-1000001)² 很大。
如果你使用 sum(θ)
你可能最终没有正则化(这是目标),因为大的 θ 值逃脱了正则化,因为项相互抵消。
您可以使用 sum(|θ|)
,具体取决于您的 search/optimisation 算法。但我知道 θ²(L2 范数)很受欢迎,并且适用于梯度下降。
正则化为lambda*sum(θ^2)
我在你之前的问题中
使用 sum(θ)
正则化的问题是你可能有 θ 参数相互抵消
示例:
θ_1 = +1000000
θ_2 = -1000001
这里的sum(θ)
是+1000000 -1000001 = -1 比较小
sum(θ²)
是 1000000² + (-1000001)² 很大。
如果你使用 sum(θ)
你可能最终没有正则化(这是目标),因为大的 θ 值逃脱了正则化,因为项相互抵消。
您可以使用 sum(|θ|)
,具体取决于您的 search/optimisation 算法。但我知道 θ²(L2 范数)很受欢迎,并且适用于梯度下降。