L2 normalization 为什么能够降低过拟合?
假设 cost function 为:
其中:
假定**函数使用:
若使成本函数最小化,若
对于
若每层的**函数都是线性函数,那么整个神经网络学习到的依然是线性函数。
这也就解释了,为什么正则化能够降低过拟合。
假设 cost function 为:
其中:
假定**函数使用:
若使成本函数最小化,若
对于
若每层的**函数都是线性函数,那么整个神经网络学习到的依然是线性函数。
这也就解释了,为什么正则化能够降低过拟合。
相关文章: