1.机器学习分类:
监督学习:可以有输入训练后得到一个模式(函数),并由此推断新的实例。训练资源是由输入物件(通常是向量)和预期输出可一世一个连续的值(回归分析)或者是一个分类标签(承做分类)。函数输出应用场景:手写识别。
无监督学习:没有给定实现标记郭的训练实例,自动分类或者分群对输入的数据,无监督学习的主要运用包含:分类、关联规则、维度缩减。应用场景:图片降噪
半监督学习:一部分训练示例已经标记,一部分没有
强化学习:强调如何基于环境而行动,以取得最大化的预期利益。
2.李航《统计学习方法》主要讲的是监督学习中的分类问题。
3.对一个模型,首先是要理解模型、算法的使用场景,之后推导细节 ,手推模型、算法。
4.那么,前期准备是什么呢?高数的积分、微分、极值等,线代有矩阵运算,求导等,概率里面有常见分布、条件分布等,以及python基础!
监督学习的步骤:
监督学习问题的过程:
5.统计学习方法的三要素:方法=模型+策略+算法
模型:
策略:什么样的标准说明这是一个最优的模型,主要涉及的是损失函数(预测值和真实值的差别惩罚)和风险函数。损失函数度量模型一次预测的好坏,而风险函数度量度量平均意义下模型预测的好坏。
损失函数:越小越好
平方损失函数相比于绝对损失函数对差值更敏感,惩罚力度更强。
6.在假设空间、损失函数以及训练数据集确定的情况下,按照经验风险最小化求最优模型就是求解最优化问题。但是当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合”现象。而结构风险最小化就是为了防止过拟合而提出的策略。
7.统计学习的目的就是使得学到的模型不仅对已知数据而且对未知数据都有很好的预测能力。
8.那什么是过拟合呢?
图4便是过拟合,众所周知,一个二次函数可以穿过任意3个点,那么9次函数可以穿过任意10个点,但是,可见的是在某些点的误差十分的大,存在严重的噪声,这使得这种拟合曲线对未知数据的预测能力往往并不是最好的,也不是可取的。
9.那么,如何选择模型?模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在风险项后面加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
10.学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。现实中采用的最多方法是通过测试误差来评价学习方法的泛化能力,但是因为数据有限,很可能得到的评价是不可靠,而统计学习理论试图从理论上对学习方法的泛化能力进行分析。而这其中往往是研究泛化误差的概率上界进行的。
11.泛化误差上界的性质:它是样本容量的函数,当样本容量增加时,上界趋近于0;它同样是假设空间容量的函数,假设空间容量越大,模型越难学习,泛化误差上界就越大。图片中的不等式左边是期望风险(泛化误差),不等式的右边(泛化误差上界)第一个是经验风险。
12.监督学习方法又可以分为生成方法和判别方法。
13.对于二分类问题常用的评价指标是精确率和召回率。通常关注的类是正类,其他类为负类。
14.标注也是一个监督学习问题,可以认为标准问题是分类问题的一个推广,标注问题又是复杂的结构预测问题的简单形式。
15.回归是监督学习的另一个重要问题,回归用于预测输入变量(自变量)和输出量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合。回归问题分为学习和预测两个过程。回归问题还分为一元回归和多元回归(输入变量的个数),还可以分为线性回归和非线性回归(输入变量和输出变量之间关系类型既模型的类型)。而回归学习最常用的损失函数是平方损失函数,在此情况下,可以由著名的最小二乘法求解。