1、机器学习的基本概念
- 监督学习:一个机器学习中的方法,可以由训练资料中学到或建立一个模式( learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
- 监督式学习:输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。
- 泛化能力:指由该方法学习到的模型对未知数据的预测能力, 是学习方法本质上重要的性质。
- 过拟合与欠拟合可以用一张图来说明:
注释:左一为欠拟合,右一为过拟合。 - 欠拟合:因为对于给定数据集,欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。 为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度,或者采用Boosting等集成方法。
- 过拟合:过拟合成因是给定的数据集相对过于简单,使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集,模型过于复杂、拟合能力过强。
- 线性回归的原理
1、线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性
模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真
实值之间的误差最小化。
假设有数据集
根据以上m个观测,怎么推出下一组的,线性回归的模型拟合如下:
。
矩阵形式为
假设函数为mX1的向量,V为nx1的向量,里面有n个代数法的模型参数。X
为mxn维的矩阵。m代表样本的个数,n代表样本的特征数。
损失函数、代价函数、目标函数的定义见下:
损失函数:计算的是一个样本的误差
代价函数:是整个训练集上所有样本误差的平均
目标函数:代价函数 + 正则化项
- 线性回归的损失函数
一般线性回归我们用均方误差作为损失函数。损失函数的代数法表示如下:
矩阵表达方式:
- 线性回归的代价函数
回归函数的目标函数一般使用均方误差,同上损失函数。
线性回归参数估计的方法有二:最小二乘法与梯度下降法
最小二乘法:
一元回归:
多元线性回归:
梯度下降法训练参数法:
- 线性回归模型的性能评价指标
残差估计:总体思想是计算实际值与预测值间的差值简称残差。从而实现对回归模型的评估,一般可以画出残差图,进行分析评估、估计模型的异常值、同时还可以检查模型是否是线性的、以及误差是否随机分布。
均方误差:最小化误差平方和(SSE)代价函数的平均值。
决定系数
转载学习自:
基本概念:https://www.cnblogs.com/pinard/p/6004041.html
参数推导:https://blog.csdn.net/zengfanj7041/article/details/78047159