大于 2 theta 值的梯度下降

Gradient descent for more than 2 theta values

梯度下降算法给出为:

(摘自 Andres NG coursera 课程) 如果有2个以上的theta参数(特征权重),这个算法应该如何实现?

是否应该包含额外的 theta 值:

并重复直到收敛,换句话说,直到theta0, theta1, theta2不再变化 ?

也许将 theta 转换为矩阵符号然后

 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X . 

Andrew Ng 的表示法是为了让那些不太习惯矩阵表示法的人清楚 - 我怀疑包括你自己。 –

矩阵公式 - 一个方程而不是多个方程 - 可能比 serially/individually 描述的 OP 方程更清晰。单一矩阵公式表明更新实际上是设计矩阵中所有向量的原子操作。底层线性代数库负责制作 "happen" 。