线性回归Linear Regression-模型和参数求解

训练集共m个样本，第i个样本(x(i),y(i)),x(i)=(x(i)1,x(i)2,...,x(i)d)T，即有d维特征。

线性回归模型

h(x)=w1x1+w2x2+...+wdxd+b

1.用向量表示

假设函数　　Hypothesis：h(x)=wTx+b
参数　　　　Parameters:w,b
损失函数　　CostFunction:J(w,b)=12m∑mi=1(h(x(i))−y(i))2
优化目标　　Goal:minimizeJ(w,b)

2.参数求解方法：

2.1Gradient Descent 梯度下降

步骤：

1.初始化w1,w2...,wd,b
2.同步更新所有参数，使J(w,b)不断减小。（α是学习率）
　　　　　wj:=wj−α∂∂wjJ(w,b)(j=1,...,d)
　　　　　b:=b−α∂∂bJ(w,b)
3.重复步骤2直至收敛
推导：
计算偏导数
因为
$J (w, b) = 1 2 m \sum i = 1 m (h (x (i)) - y (i)) 2 = 1 2 m \sum i = 1 m (（ w 1 x (i) 1 + w 2 x (i) 2 + . . . + w d x (i) d + b ） - y (i)) 2$
所以
$\partial \partial w j J (w, b) = = 1 m \sum i = 1 m (（ w 1 x (i) 1 + w 2 x (i) 2 + . . . + w d x (i) d + b ） - y (i)) x (i) j 1 m \sum i = 1 m (h (x (i)) - y (i)) x (i) j$
$\partial \partial b J (w, b) = = 1 m \sum i = 1 m (（ w 1 x (i) 1 + w 2 x (i) 2 + . . . + w d x (i) d + b ） - y (i)) 1 m \sum i = 1 m (h (x (i)) - y (i))$
则参数更新公式为

wj:=wj−α1m∑mi=1(h(x(i))−y(i))x(i)j
b:=b−α1m∑mi=1(h(x(i))−y(i))

这里需要注意的一点，正确的参数更新方式为同步更新，例如输入只有一维时y=w1x1+b
　　正确的参数更新：
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ t e m p 0 = w 1 - α \partial \partial w 1 J (w 1, b) t e m p 1 = b - α \partial \partial b J (w 1, b) w 1 = t e m p 0 b = t e m p 1$
　　错误的参数更新：
${w 1 = w 1 - α \partial \partial w 1 J (w 1, b) b = b - α \partial \partial b J (w 1, b)$
　　错误原因：没有同步更新，w1先更新，然后再更新b，而此时更新b用了更新后的w1，而不是本来的w1。

2.2Normal Equation 正规方程

解析法求解参数：对cost function求导，令导数为0，求得参数。

简单情况举例
输入只有一维特征y=wx+b，优化目标minimizeJ(w,b)=J(w,b)=12m∑mi=1(wx(i)+b−y(i))2
求导
${\partial \partial w J (w, b) = 1 m \sum m i = 1 (w x (i) + b - y (i)) x (i) \partial \partial b J (w, b) = 1 m \sum m i = 1 (w x (i) + b - y (i))$
令导数为0，求得
$⎧ ⎩ ⎨ ⎪ ⎪ w = \sum m i = 1 (y (i) - b) x (i) \sum m i = 1 x (i) 2 b = \sum m i = 1 (y (i) - w x (i)) m$
通常情况，多维特征
m个样本，d维特征。为了计算简便，通常把w,b统一起来，给x增加一列1，b作为w0，如下：

则
$J (w) = 1 2 m (X W - Y) 2 = 1 2 m (X W - Y) T (X W - Y)$
求导
$\partial \partial w J (w) = = 1 2 m (X W - Y) T (X W - Y) 1 2 m (X T X W - X T Y)$
令导数等于0，得到
$W = (X T X) - 1 X T Y$
n*n矩阵求逆运算的时间复杂度是O(n3)。(XTX)是（d+1）*（d+1）维，所以当特征维数d很大时，计算将花费很长时间。

2.3两种方法比较

线性回归Linear Regression-模型和参数求解
一般，当特征维数小于10000时，正规方程计算是一个很好的方法，当特征维数多于10000时，通常采用梯度下降方法。
像线性回归这样简单的模型可通过对损失函数求导，令导数为0，解得最优解所对应的参数。但对复杂的模型来说，求导过程可能相当复杂，只能用梯度下降法不断向最优解处逼近。

参考资料：

1.Andrew Ng的Machine Learning课程
2.《机器学习》周志华
3.http://blog.csdn.net/stdcoutzyx/article/details/9101621