大于 2 theta 值的梯度下降
Gradient descent for more than 2 theta values
梯度下降算法给出为:
(摘自 Andres NG coursera 课程)
如果有2个以上的theta参数(特征权重),这个算法应该如何实现?
是否应该包含额外的 theta 值:
并重复直到收敛,换句话说,直到theta0, theta1, theta2不再变化 ?
也许将 theta 转换为矩阵符号然后
big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X .
Andrew Ng 的表示法是为了让那些不太习惯矩阵表示法的人清楚 - 我怀疑包括你自己。 –
矩阵公式 - 一个方程而不是多个方程 - 可能比 serially/individually 描述的 OP 方程更清晰。单一矩阵公式表明更新实际上是设计矩阵中所有向量的原子操作。底层线性代数库负责制作 "happen" 。
梯度下降算法给出为:
(摘自 Andres NG coursera 课程) 如果有2个以上的theta参数(特征权重),这个算法应该如何实现?
是否应该包含额外的 theta 值:
并重复直到收敛,换句话说,直到theta0, theta1, theta2不再变化 ?
也许将 theta 转换为矩阵符号然后
big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X .
Andrew Ng 的表示法是为了让那些不太习惯矩阵表示法的人清楚 - 我怀疑包括你自己。 –
矩阵公式 - 一个方程而不是多个方程 - 可能比 serially/individually 描述的 OP 方程更清晰。单一矩阵公式表明更新实际上是设计矩阵中所有向量的原子操作。底层线性代数库负责制作 "happen" 。