线性回归基本概念学习

1、机器学习的基本概念

监督学习：一个机器学习中的方法，可以由训练资料中学到或建立一个模式（ learning model），并依此模式推测新的实例。训练资料是由输入物件（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。
监督式学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。
泛化能力：指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。
过拟合与欠拟合可以用一张图来说明：

注释：左一为欠拟合，右一为过拟合。
欠拟合：因为对于给定数据集，欠拟合的成因大多是模型不够复杂、拟合函数的能力不够。为此可以增加迭代次数继续训练、尝试换用其他算法、增加模型的参数数量和复杂程度，或者采用Boosting等集成方法。
过拟合：过拟合成因是给定的数据集相对过于简单，使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集，模型过于复杂、拟合能力过强。
线性回归的原理
1、线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性
模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真
实值之间的误差最小化。