吴恩达《机器学习》Week1-Day2总结

在第二课，我了解了用单变量线性回归方程来实现简单的监督学习从而对数据进行预测。
对于一些无线性关系的数据（散点），如何拟合出一条直线，使其最大程度在整体上最为贴合这些离散数据，进而使对未出现数据的结果预测最为精准，这就需要用到我刚学习到的单变量线性方程。

首先，在得到training set 后，建立一个hypothesis，即假设有一个函数 $y=\theta_0+\theta_1x$ ,这个函数可以最好的拟合这些散点。
如何求出 $\theta_0和\theta_1$ 呢？我们的目的是让直线在整体上最接近所有的散点，所以根据高中知识我们可以得出代价函数表达式如图
下面的问题是如何求出 $J(\theta_0,\theta_1)$ 的最小值，简单起见，先让 $\theta_0=0$ 针对如下特殊情况，就有如下表达式
可以看出，当 $\theta_1=0$ 时，函数值最小，为0，所以该组training set的最优线性回归方程为 $y=x$ ，而 $J(\theta_1)$ 图像如图，是个二次函数，显然二次函数最低点便是代价函数值最小点即在该点的 $\theta_1$ 对数据的拟合度最高
若 $\theta_0{=}\mathllap{/\,}0$ 方法大同小异，只不过函数解析式由二维变成三维，同样图像的最低点就是最优线性回归方程参数 $\theta_0,\theta_1,J(\theta_0,\theta_1)$ 所在点。