【发布时间】:2016-04-17 12:04:46
【问题描述】:
我正在调试我的约束随机梯度下降算法,论文 http://research.microsoft.com/pubs/192769/tricks-2012.pdf 建议使用有限差分检查梯度。我添加了一个惩罚函数,但模型不再收敛,所以我想按照论文中的建议检查我的梯度。
- 选择一个例子。
- 计算当前 w 的损失 Q(z, w)。
- 计算梯度 g = ∇w Q(z, w)。
- 应用轻微的扰动 w 0 = w +δ。例如,更改单个权重 增加一个小增量,或者使用 δ = -γg 且 γ 足够小。
- 计算新的损失 Q(z, w0 ) 并验证 Q(z, w0 ) ≈ Q(z, w) + δg
所以我可以选择一个例子并计算这个例子的损失,但是我的权重向量包含约 4000 个特征,所以我得到一个包含那么多偏导数的向量作为我的梯度,而损失是一个整数,所以它不是可以计算 Q(z, w) + δg。我是否必须仅计算 w 的单个特征的损失?是指“当前的 w”吗?
【问题讨论】:
标签: machine-learning gradient gradient-descent