我是否应该在成本增加时立即退出我的梯度下降循环？

Question

我正在尝试学习机器学习，所以我正在学习一门课程，目前正在研究线性回归的梯度下降。我刚刚了解到，如果学习率足够小，成本函数返回的值应该不断减少，直到收敛。当我想象这是在一个代码循环中完成时，似乎我可以只跟踪上一次迭代的成本，如果新成本大于之前的成本则退出循环，因为这告诉我们学习率太大了。我想听听意见，因为我是新手，但为了不让这个问题主要基于意见，我的主要问题是：这种检测学习率的方法有什么问题需要减少？如果可能的话，我会很感激这个方法何时会失败的例子。

Answer 1

在下面的这个例子中，我们将学习率 eta = 10^k 与 k={-6,-5,-4,...0}

def f(x):
  return 100 * (x[ 0] *x[0] - x[ 1]) **2 + (x[ 0] -1) **2

def df(x):
  a = x[ 0] *x[0] - x[ 1]
  ret = np.zeros(2)
  ret[ 0] = 400 * a * x[0] + 2 * (x[0] - 1)
  ret[ 1] = -200 * a
  return ret

for k in range(-6, 0):
  eta = math.pow(10.0, k)
  print("eta: " + str(eta))
  x = -np.ones(2)
  for iter in range(1000000):
    fx = f(x)
    if fx < 1e-10:
      print(" solved after " + str(iter) + " iterations; f(x) = " + str(f(x)))
      break
    if fx > 1e10:
      print(" divergence detected after " + str(iter) + " iterations; f(x) = " +  
        str(f(x)))
      break
  g = df(x)
  x -= eta * g
  if iter == 999999:
    print(" not solved; f(x) = " + str(f(x)))

学习率太小，优化很慢，在迭代预算内无法解决问题。对于太大的学习率，优化过程变得不稳定并且很快发散。学习率必须 "just right" 才能使优化过程正常运行。

我是否应该在成本增加时立即退出我的梯度下降循环？

Should I exit my gradient descent loop as soon as the cost increases?

machine-learning

linear-regression

gradient-descent