吴恩达机器学习_第一周笔记

1 Introduction

Welcome

一些复杂问题，如网页搜索，垃圾邮件拦截，标记照片等，我们并不知道如何显式地编写人工智能程序，只能让机器学会如何自己去做。

What is Machine Learning?

定义： 一个好的学习问题定义如下，一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时的性能有所提升。

例如：
吴恩达机器学习_第一周笔记
类型：

Supervised Learning（监督学习）

监督学习： 数据集已经带有正确答案
包括：
回归：预测连续值输出；
分类：预测离散值输出；
支持向量机可以处理无限多特性的数据集（即无限维数据）

Unsupervised Learning（无监督学习）

无监督学习： 数据集无正确答案，也无类型
包括：
聚类：从大型的数据集中，找出类型结构
非聚类：如鸡尾酒会算法，实现音频分离（SVD：奇异值分解）

建议先用MATLAB挑选算法，然后再用C++或Java去具体实现，但这是比较老的做法，现在多用Python

2 Model and Cost Function

Model Representation

数据集
吴恩达机器学习_第一周笔记
Notation为本课程的符号约定

单变量线性回归模型
吴恩达机器学习_第一周笔记
$\theta$ 为要预测的参数， $h$ 为要预测的函数，被称为假设函数只是历史问题

Cost Function(代价函数)

吴恩达机器学习_第一周笔记
为了合理选择 $\theta_i$ ，定义了代价函数 $J(\theta_1,\theta_2)$
能使 $J(\theta_1,\theta_2)$ 最小的 $(\theta_1,\theta_2)$ 即为最好的 $(\theta_1,\theta_2)$ ，从而得到了最好的 $h(\theta)$

吴恩达机器学习_第一周笔记
这里使用的代价函数为平方差代价函数，即使得预测值与真实值的误差平方和最小。以后还会有其他的代价函数。

为什么除以2m? 或许后面的平方求导后可与2约掉

代价函数的图像

先考虑 $\theta_0=0$ 的情况
吴恩达机器学习_第一周笔记
不同的 $\theta_1$ 对应左图中的不同直线，对应右图中的不同的点，当 $\theta_1=0$ 时, $J(\theta_1)$ 最小，也最吻合训练集。

现在来考虑 $\theta_0$ 和 $\theta_1$ 都不为0的情况
代价函数将是两个自变量的函数
吴恩达机器学习_第一周笔记

但一般不用三维图表示，而用 $\theta_0-\theta_1$ 图，也就是等高线图来表示

吴恩达机器学习_第一周笔记

3 Parameter Learning (Gradient Descent：梯度下降法)

梯度下降法：
可以解决有限个参数的问题；
但可能会陷入局部最小值，初始值的微小不同就可能导致陷入不同的局部最小值
吴恩达机器学习_第一周笔记

梯度下降法可以用下山来比喻：从某一点（即初始值）用小碎步（可选不同的步长）开始下山，每到一个点，选择在此处下山最快的方向（就是切线斜率/梯度最大的方向），从而到下一个点。

关于右上角绿色式子：
$:=$ 是赋值 $=$ 是判定是否相等（来自Pascal语言，和其他语言不一样）
$\alpha$ 是学习速率，决定步长；偏导决定方向；对每一个参数 $\theta_j$ ，都要进行更新，必须同步更新，才是公认的梯度下降法。
不同步更新有时也能得到正确的答案，但不推荐，也不叫做梯度下降法。

一个参数的直观例子

导数项影响下降方向，但总能使代价函数下降
吴恩达机器学习_第一周笔记

步长项影响下降快慢，步长太大会导致发散
吴恩达机器学习_第一周笔记

接下来进入正题：

线性回归的代价函数解法——梯度下降法

将代价函数中的偏导数进一步计算：
吴恩达机器学习_第一周笔记
一般的代价函数可能有多个局部最小值(local minimum)，但对于线性规划而言，其代价函数是只有一个全局最小值的凸函数，所以使用梯度下降法，一定会获得全局最优解，不会陷入局部最优。

4 Linear Algebra Review

矩阵和向量基础知识

吴恩达机器学习_第一周笔记
$R^{4\times2}$ 表示所有 $4\times2$ 矩阵的集合
$R^4$ 表示所有四维向量的集合
矩阵一般用大写字母表示，而向量一般用小写字母，常用y
向量是只有一列元素的矩阵

0-索引和1-索引：0-索引在编程中常用，1-索引在数学中常用，本课程中用1-索引

矩阵的加法和标量乘法

加法：对应元素相加
相加的两个矩阵维度相同，相加得到的矩阵依然是这个维度

标量乘法（数乘）：每个元素都乘以这个数
得到的矩阵和原矩阵维度相同
满足乘法交换律

矩阵与向量相乘

这样的方便应用可以简化代码
吴恩达机器学习_第一周笔记

矩阵与矩阵相乘

可以同时获得不同假设函数的预测结果
吴恩达机器学习_第一周笔记

矩阵乘法性质

不满足交换律： A×B和B×A不一定相等
不满足结合律：(A×B)×C和A×(B×C)不一定相等
但当单位矩阵出现的时候，交换律和结合律就可以满足
吴恩达机器学习_第一周笔记

矩阵求逆和转置

吴恩达机器学习_第一周笔记
是否能求逆后续再说不能求逆的矩阵叫做奇异矩阵或退化矩阵

目录