梯度下降——步长值
Gradient Descent - Step Value
让k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1
theta1 := theta1 - k
.
在Andrew的课程中,他说alpha是学习率。如果导数是正数,我们减去 alpha * k
,如果是负数,我们加上它。为什么我们需要减去这个 alpha * partial_derivative ( J (theta1) ) w.r.t theta1
而不是 alpha * just the sign of derivative
?
那里的乘法有什么用?谢谢。
我们需要在达到最小值时减小 k 的值 - 步长值。正如我们所知,当我们达到最小值时,导数也变为零。因此,我们将 alpha 和导数相乘以生成一个步进值,当我们达到最小值时该步进值趋于零。
让k = alpha * partial_derivative ( J (theta1) ) w.r.t theta1
theta1 := theta1 - k
.
在Andrew的课程中,他说alpha是学习率。如果导数是正数,我们减去 alpha * k
,如果是负数,我们加上它。为什么我们需要减去这个 alpha * partial_derivative ( J (theta1) ) w.r.t theta1
而不是 alpha * just the sign of derivative
?
那里的乘法有什么用?谢谢。
我们需要在达到最小值时减小 k 的值 - 步长值。正如我们所知,当我们达到最小值时,导数也变为零。因此,我们将 alpha 和导数相乘以生成一个步进值,当我们达到最小值时该步进值趋于零。