大于 2 theta 值的梯度下降

Question

梯度下降算法给出为：

（摘自 Andres NG coursera 课程）如果有2个以上的theta参数（特征权重），这个算法应该如何实现？

是否应该包含额外的 theta 值：

并重复直到收敛，换句话说，直到theta0, theta1, theta2不再变化 ?

Answer 1

也许将 theta 转换为矩阵符号然后

 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X .

Andrew Ng 的表示法是为了让那些不太习惯矩阵表示法的人清楚 - 我怀疑包括你自己。 –

矩阵公式 - 一个方程而不是多个方程 - 可能比 serially/individually 描述的 OP 方程更清晰。单一矩阵公式表明更新实际上是设计矩阵中所有向量的原子操作。底层线性代数库负责制作 "happen" 。

Gradient descent for more than 2 theta values