【问题标题】:Gradient descent for more than 2 theta values超过 2 个 theta 值的梯度下降
【发布时间】:2015-11-21 19:46:43
【问题描述】:

梯度下降算法如下:

(取自 Andres NG coursera 课程) 如果有超过2个theta参数(特征权重),这个算法应该如何实现?

是否应该包含一个额外的 theta 值:

并重复直到收敛,换句话说,直到theta0,theta1,theta2不再变化?

【问题讨论】:

  • 手绘框和偏导数。酷!
  • 也许将 theta 转换为矩阵符号然后 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X 。Andrew Ng 的符号是为了让那些人清楚对矩阵表示法不太满意——我怀疑这包括你自己。
  • @javadba 谢谢,“big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X”应该是“big theta = big theta - alpha(1 //m) * sigma(h(big theta(X) - Y) * X" ? 你省略了 1/m ?
  • 是的。 (加上一些填充物以达到最小评论长度;))
  • @javadba 我认为让我感到困惑的是 GD 应该在循环中使用,以便同时更新所有 thetas,但矩阵乘法也是如此

标签: machine-learning linear-regression gradient-descent


【解决方案1】:

也许然后将 theta 转换为矩阵表示法

 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X . 

Andrew Ng 的符号是为了让那些不太熟悉矩阵符号的人清楚 - 我怀疑包括你自己在内。 -

矩阵公式 - 单个方程而不是多个方程 - 可能比 OP 中连续/单独描述的方程更清晰。单矩阵公式表明,有效地更新是设计矩阵中所有向量的原子操作。底层线性代数库的责任是“发生”。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-12-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-08
    • 2016-06-13
    • 2018-09-10
    相关资源
    最近更新 更多