数据挖掘学习之旅（一）

基本算法

线性回归

基础概念

在统计学中，线性回归是一种线性方法，用于建模标量响应（或因变量）与一个或多个解释变量（或独立变量）之间的关系。一个解释变量的情况称为简单线性回归。对于多个解释变量，该过程称为多元线性回归。该术语不同于多元线性回归，其中预测了多个相关因变量，而不是单个标量变量。

在线性回归中，使用线性预测函数对关系进行建模，其中未知模型参数是根据数据估计的。这种模型称为线性模型。最常见的是，给定解释变量（或预测变量）的值的响应的条件均值被假定为这些值的仿射函数 ; 不太常见的是，使用条件中值或一些其他分位数。与所有形式的回归分析一样，线性回归侧重于条件概率分布给出预测变量值的响应，而不是所有这些变量的联合概率分布，这是多变量分析的领域。

八种python实现方法

Scipy.polyfit( ) or numpy.polyfit( )
Stats.linregress( )
Optimize.curve_fit( )
numpy.linalg.lstsq
Statsmodels.OLS ( )
简单的乘法求矩阵的逆
首先计算x的Moore-Penrose广义伪逆矩阵，然后与y取点积
sklearn.linear_model.LinearRegression( )