【发布时间】:2014-07-03 16:59:20
【问题描述】:
使用更新规则可以轻松完成学习感知器 w_i=w_i + n(y-\hat{y})x。
到目前为止我阅读的所有资源都说学习率 n 可以设置为 1 w.l.g.
我的问题如下,如果数据是线性可分的,是否有任何证据表明收敛速度始终相同? 这不应该也取决于初始 w 向量吗?
【问题讨论】:
标签: machine-learning neural-network perceptron
使用更新规则可以轻松完成学习感知器 w_i=w_i + n(y-\hat{y})x。
到目前为止我阅读的所有资源都说学习率 n 可以设置为 1 w.l.g.
我的问题如下,如果数据是线性可分的,是否有任何证据表明收敛速度始终相同? 这不应该也取决于初始 w 向量吗?
【问题讨论】:
标签: machine-learning neural-network perceptron
引用Wikipedia:
感知器的决策边界是不变的 权重向量的缩放;也就是说,一个受过训练的感知器 初始权重向量 \mathbf{w} 和学习率 \alpha \,表现 与使用初始权重向量训练的感知器相同 \mathbf{w}/\alpha \, 学习率为 1。因此,由于初始 随着迭代次数的增加,权重变得无关紧要, 在感知器的情况下,学习率无关紧要,并且是 通常只设置为 1。
【讨论】: