一、统计学习方法总结
| 方法 | 适用问题 | 模型特点 | 模型类型 | 学习策略 | 学习的损失函数 | 学习算法 |
|---|---|---|---|---|---|---|
| 感知机 | 二分类 | 分离超平面 | 判别模型 | min{误分点到超平面距离} | 误分点到超平面距离 | 随机梯度下降 |
| 支持向量积 | 二分类 | 分离超平面,核技巧 | 判别模型 |
min{正则化合页损失}, max{软间隔} |
合页损失 | 序列最小最优化算法(SMO) |
| 提升方法 | 二分类 | 弱分类器的线性组合 | 判别模型 | min{加法模型的指数损失} | 指数损失 | 前向分步加法算法 |
| 朴素贝叶斯法 | 多分类 | 特征与类别的联合概率分布,条件独立假设 | 生成模型 |
极大似然估计, max{后验概率估计} |
对数似然损失 | 概率计算公式,EM算法 |
| logistic回归与最大熵模型 | 多分类 | 特征条件下的类别条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,正则化的极大似然估计 | logistc损失 | 改进的迭代尺度算法,梯度下降,拟牛顿法 |
| k 近邻法 | 多分类,回归 | 特征空间,样本点 | 判别模型 | 无 | 无 | 无 |
| 决策树 | 多分类,回归 | 分类树,回归树 | 判别模型 | 正则化的极大似然估计 | 对数似然损失 | 特征选择,生成,剪枝 |
| 隐马尔可夫模型 | 标注 | 观测序列与状态序列的联合概率分布模型 | 生成模型 |
极大似然估计, max{后验概率估计} |
对数似然损失 | 概率计算公式,EM算法 |
| 条件随机场 | 标注 | 状态序列条件下观测序列的条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,正则化的极大似然估计 | 对数似然损失 | 改进的迭代尺度算法,梯度下降,拟牛顿法 |
| EM算法 | 概率模型参数估计 | 含隐变量概率模型 | 无 |
极大似然估计, max{后验概率估计} |
对数似然损失 | 迭代算法 |
二、感知机(Perceptron)
输入:实例的特征向量(感知机对应于输入空间中将实例分为正负两类的分离超平面)
输出:实例的类别,取+1、-1
优点:简单而易实现
三、感知机模型
输入空间(特征空间):,实例的特征向量:
输出空间:,实例的类别:
感知机:(输入空间到输出空间的函数)
w:权值向量;b:偏置;· 内积;
几何解释:
距离:
四、感知机策略
损失函数=;M为误分类点数目
1、误分类点数目,但不是w,b连续可导,不宜优化。
2、误分类点到超平面的总距离。
总距离= ;误分类点:
((w·x+b)和y符号一致性);误分类点距离=
五、感知机算法
优化问题:
解法:随机梯度下降法。
1、随机选一个超平面(w,b),不断极小化目标函数L:
L的梯度:1)对w求偏导:2)对b求偏导:
2、选取误分类点(x,y)满足更新:
;
;