【发布时间】:2015-11-21 19:46:43
【问题描述】:
梯度下降算法如下:
(取自 Andres NG coursera 课程) 如果有超过2个theta参数(特征权重),这个算法应该如何实现?
是否应该包含一个额外的 theta 值:
并重复直到收敛,换句话说,直到theta0,theta1,theta2不再变化?
【问题讨论】:
-
手绘框和偏导数。酷!
-
也许将 theta 转换为矩阵符号然后 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X 。Andrew Ng 的符号是为了让那些人清楚对矩阵表示法不太满意——我怀疑这包括你自己。
-
@javadba 谢谢,“big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X”应该是“big theta = big theta - alpha(1 //m) * sigma(h(big theta(X) - Y) * X" ? 你省略了 1/m ?
-
是的。 (加上一些填充物以达到最小评论长度;))
-
@javadba 我认为让我感到困惑的是 GD 应该在循环中使用,以便同时更新所有 thetas,但矩阵乘法也是如此
标签: machine-learning linear-regression gradient-descent