无导数的梯度下降
Gradient Descent without derivative
所以我试图理解梯度下降,但我很困惑。如果你有一个抛物线,它是你改变重量时的损失。与其在我们所在的 x 点求导,不如简单地找到抛物线的顶点?
可以。如果你的损失函数实际上是一个抛物线(或其他方便的凸函数),你可以。但更有可能的是你的损失函数是非凸的并且非常复杂,而且你不知道它是什么。所以我们按照我们的方式使用梯度下降——我们不断地采样。当您看到方便的抛物线时,那只是一个简化的图示。
所以我试图理解梯度下降,但我很困惑。如果你有一个抛物线,它是你改变重量时的损失。与其在我们所在的 x 点求导,不如简单地找到抛物线的顶点?
可以。如果你的损失函数实际上是一个抛物线(或其他方便的凸函数),你可以。但更有可能的是你的损失函数是非凸的并且非常复杂,而且你不知道它是什么。所以我们按照我们的方式使用梯度下降——我们不断地采样。当您看到方便的抛物线时,那只是一个简化的图示。