梯度下降图是如何工作的

how does the graph of the gradient descent work

我在理解梯度下降时遇到了问题,例如让我们采用具有 1 个特征的简单线性回归,其中在绘制回归线后计算误差 Ypred-Yact,然后计算每个斜率和截距的成本函数回归线。现在根据斜率和截距绘制此成本函数,以通过梯度找到成本函数相对于斜率和截距的最低值。

为什么我们绘制成本函数图然后找到最低值?

模型将计算不同斜率和截距的成本函数,所以我们不能在这里确定函数的最低值而不是绘制图形然后找到梯度并更新斜率和截距

当您基于一种训练特征和一种目标特征制作模型时,您可以使用像 y=mx+c 这样的直接方程式,其中,

m = (n(Σxy)-(Σx)(Σy))/(n(Σx^2)-(Σx)^2)

c = ((Σy)(Σx^2)-(Σx)(Σxy))/(n(Σx^2)-(Σx)^2)

但是当有多个特征需要训练以获得目标值时,你的方程看起来像 y=m1x1+m2x2+m3x3+....+c ,这是一个 n 维方程。

在训练和目标特征之间找到线性关系的单个方程在这里不起作用。对于多个特征,我们需要一条 n 维的线来拟合均方误差最小的位置,正如我们所说的找到成本函数的最低值。

然后,关于绘制成本函数图,您使用的库代码不绘制成本函数。只需要维护矩阵,迭代收敛即可。

为了更好地理解算法, click here click here