统计学习（监督学习）框架总结

以下内容参考《统计学习方法》李航著，《Python机器学习及实践》范淼、李超著

机器学习：监督学习——对事物未知表现的预测

无监督学习——对事物本身特性的分析

半监督学习，强化学习

无监督学习：数据降维——对事物的特性进行压缩和筛选，如图像降维时保留最具有区分度的像素组合

聚类——依赖于数据的相似性，把相似的数据样本划分为一个簇。不会预先知道簇的数量和每个簇的具体含义

统计学习：数据——>提取数据特征——>抽象数据模型——>对数据预测分析

——————————————————————————————————————

模型————————策略————————算法

假设空间——————评价准则——————模型选取

不同模型——————损失函数————— 解优化问题

（同一学习方法不同参数）

——————————————————————————————————————

学习模型：决策函数f(X)，条件概率分布P(Y|X)

优化目标：损失函数————>期望风险————>经验风险——经验风险最小化————>结构风险=经验风险+正则化项

统计学习（监督学习）框架总结

过拟合：

过分追求提高对训练数据的预测能力，所选模型的复杂度比真实模型复杂度更高———学习模型包含的参数过多。

模型选择：正则化，交叉验证

正则化：结构风险最小化，在经验风险上加上一个正则化项/罚项，正则化项是模型复杂度的单增函数

统计学习（监督学习）框架总结

训练集/测试集——>简单交叉验证

训练集/测试集——>S折交叉验证，留一交叉验证（选择“多次评测的平均测试误差最小的”模型）

泛化能力

学到模型对未知数据预测的误差，即为泛化误差——学习方法的泛化能力，所学习到的模型的期望风险

统计学习（监督学习）框架总结

生成模型：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测模型，即生成模型P(Y|X)=P(X,Y)/P(X)————存在隐变量

典型的生成模型：朴素贝叶斯法，隐马尔可夫模型

判别模型：由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。即对给定的输入X，应该预测什么样的输出Y。

典型的判别模型：k近邻法，感知机，决策树，逻辑斯蒂回归模型，最大熵模型，支持向量机，提升方法，条件随机场

监督学习：分类问题，标注问题，回归问题

可用于分类问题的统计学习方法：k近邻法，感知机，朴素贝叶斯法，决策树，决策列表，逻辑斯蒂回归模型，支持向量机，提升方法，贝叶斯网络，神经网络，Winnow

可用于标注问题的统计学习方法：隐马尔可夫模型，条件随机场