超过 2 个 theta 值的梯度下降答案

【问题标题】：Gradient descent for more than 2 theta values超过 2 个 theta 值的梯度下降
【发布时间】：2015-11-21 19:46:43
【问题描述】：

梯度下降算法如下：

（取自 Andres NG coursera 课程）如果有超过2个theta参数（特征权重），这个算法应该如何实现？

是否应该包含一个额外的 theta 值：

并重复直到收敛，换句话说，直到theta0，theta1，theta2不再变化？

【问题讨论】：

手绘框和偏导数。酷！
也许将 theta 转换为矩阵符号然后 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X 。Andrew Ng 的符号是为了让那些人清楚对矩阵表示法不太满意——我怀疑这包括你自己。
@javadba 谢谢，“big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X”应该是“big theta = big theta - alpha(1 //m) * sigma(h(big theta(X) - Y) * X" ? 你省略了 1/m ?
是的。（加上一些填充物以达到最小评论长度；））
@javadba 我认为让我感到困惑的是 GD 应该在循环中使用，以便同时更新所有 thetas，但矩阵乘法也是如此

【解决方案1】：

也许然后将 theta 转换为矩阵表示法

 big theta = big theta - alpha/m * sigma(h(big theta(X) - Y) * X .

Andrew Ng 的符号是为了让那些不太熟悉矩阵符号的人清楚 - 我怀疑包括你自己在内。 -

矩阵公式 - 单个方程而不是多个方程 - 可能比 OP 中连续/单独描述的方程更清晰。单矩阵公式表明，有效地更新是设计矩阵中所有向量的原子操作。底层线性代数库的责任是“发生”。

【讨论】：