使用梯度下降理解逻辑回归代码
Understanding code wrt Logistic Regression using gradient descent
我正在关注 Siraj Raval 关于使用梯度下降的逻辑回归的视频:
1) Link 到更长的视频:
https://www.youtube.com/watch?v=XdM6ER7zTLk&t=2686s
2) Link 到更短的视频:
https://www.youtube.com/watch?v=xRJCOz3AfYY&list=PL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D
在视频中,他谈到了使用梯度下降来减少一定次数的迭代的误差,从而使函数收敛(斜率变为零)。
他还通过代码说明了该过程。以下是代码中的两个主要功能:
def step_gradient(b_current, m_current, points, learningRate):
b_gradient = 0
m_gradient = 0
N = float(len(points))
for i in range(0, len(points)):
x = points[i, 0]
y = points[i, 1]
b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
new_b = b_current - (learningRate * b_gradient)
new_m = m_current - (learningRate * m_gradient)
return [new_b, new_m]
def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
b = starting_b
m = starting_m
for i in range(num_iterations):
b, m = step_gradient(b, m, array(points), learning_rate)
return [b, m]
#The above functions are called below:
learning_rate = 0.0001
initial_b = 0 # initial y-intercept guess
initial_m = 0 # initial slope guess
num_iterations = 1000
[b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
# code taken from Siraj Raval's github page
为什么 b & m 的值在所有迭代中不断更新?经过一定次数的迭代后,当我们找到使斜率 = 0 的 b 和 m 的值时,函数将收敛。
那么为什么我们在那个点之后继续迭代并继续更新 b & m ?
这样,我们不是失去了 'correct' b & m 值吗?如果我们在收敛后继续更新值,学习率如何帮助收敛过程?因此,为什么不检查收敛性,这实际上是如何工作的?
实际上,一旦我们到达坡度 0; b_gradient和m_gradient会变成0;
因此,对于:
new_b = b_current - (learningRate * b_gradient)
new_m = m_current - (learningRate * m_gradient)
new_b 和 new_m 将保持旧的正确值;因为他们不会减去任何东西。
实际上,您很可能不会完全到达坡度 0。把你的损失函数想象成一个碗。如果您的学习率太高,则可能会超出碗的最低点。相反,如果学习率太低,你的学习就会变得太慢,在所有迭代完成之前不会到达碗的最低点。
这就是为什么在机器学习中,学习率 是需要调整的重要超参数。
我正在关注 Siraj Raval 关于使用梯度下降的逻辑回归的视频:
1) Link 到更长的视频: https://www.youtube.com/watch?v=XdM6ER7zTLk&t=2686s
2) Link 到更短的视频: https://www.youtube.com/watch?v=xRJCOz3AfYY&list=PL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D
在视频中,他谈到了使用梯度下降来减少一定次数的迭代的误差,从而使函数收敛(斜率变为零)。 他还通过代码说明了该过程。以下是代码中的两个主要功能:
def step_gradient(b_current, m_current, points, learningRate):
b_gradient = 0
m_gradient = 0
N = float(len(points))
for i in range(0, len(points)):
x = points[i, 0]
y = points[i, 1]
b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
new_b = b_current - (learningRate * b_gradient)
new_m = m_current - (learningRate * m_gradient)
return [new_b, new_m]
def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
b = starting_b
m = starting_m
for i in range(num_iterations):
b, m = step_gradient(b, m, array(points), learning_rate)
return [b, m]
#The above functions are called below:
learning_rate = 0.0001
initial_b = 0 # initial y-intercept guess
initial_m = 0 # initial slope guess
num_iterations = 1000
[b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
# code taken from Siraj Raval's github page
为什么 b & m 的值在所有迭代中不断更新?经过一定次数的迭代后,当我们找到使斜率 = 0 的 b 和 m 的值时,函数将收敛。
那么为什么我们在那个点之后继续迭代并继续更新 b & m ? 这样,我们不是失去了 'correct' b & m 值吗?如果我们在收敛后继续更新值,学习率如何帮助收敛过程?因此,为什么不检查收敛性,这实际上是如何工作的?
实际上,一旦我们到达坡度 0; b_gradient和m_gradient会变成0;
因此,对于:
new_b = b_current - (learningRate * b_gradient)
new_m = m_current - (learningRate * m_gradient)
new_b 和 new_m 将保持旧的正确值;因为他们不会减去任何东西。
实际上,您很可能不会完全到达坡度 0。把你的损失函数想象成一个碗。如果您的学习率太高,则可能会超出碗的最低点。相反,如果学习率太低,你的学习就会变得太慢,在所有迭代完成之前不会到达碗的最低点。
这就是为什么在机器学习中,学习率 是需要调整的重要超参数。