The VC Dimension
Definition of VC Dimension
- 可以学习的情形:
- 在处为突破点(好的假设集)
- 足够大(好的数据集),(大概率)使得
- 有一个算法,能够选择一个有较小的模式(好的算法)
- (大概率)可以实现学习
- VC维度:对最大的非突破点的形式化名称,()
- ,假设集H可以被N完全分割
- ,N是假设集H上的一个突破点
- 当有限时,可以推导出是能够泛化的()
- 和算法A本身无关
- 对输入的概率分布无关
- 和目标函数无关
VC Dimension of Perceptron
- 1D感知器,为2
- 2D感知器,为3
- dD感知器,为d+1(可证)
Physical Intuition of VC Dimension
- 假设集参数创建了自由度
- 假设集的个数类比了自由度
- 假设集的强度决定了有效的二元分类的自由度
- 对M的分析可以等价替换为对的分析
- 选择一个合适的十分重要
Interpreting VC Dimension
-
对VC界限的一种思考:模型复杂度
-
指定假设坏模式的概率为
-
那么在概率下,我们可以根据泛化误差()来导出最坏上界:
-
后一项记为,称为对模式复杂性的惩罚项
-
-
当上升,内误差会下降但模式复杂性会上升
-
当下降,模式复杂性会下降,但内误差会上升
-
最佳的(外误差最小)在中间位置
-
-
另外一个说法:样本复杂度
- 理论上需要万倍于的数据量
- 实际上,大约十倍于的数据量可以满足误差要求
-
很宽松
-
在已知的情况下,认知模型有多复杂,并估计需要多少的样本实现学习