机器学习（Coursera吴恩达）（一）

标签（空格分隔）：机器学习

第一周

机器学习是什么？
让机器学习人的行为模式，学习人脑的思维模式。
比如Alpha狗可以对战下棋，垃圾邮件筛选，只能推荐系统，自动驾驶等很多都是基于机器学习，使用更深层次的框架实现。

目前存在几种不同类型的学习算法，主要的两种类型被称为监督学习和无监督学习。

1.3 监督学习
1. 经典的例子：一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来，看起来是这个样子：横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如你有一个朋友，他有一套750平方英尺房子，现在他希望把房子卖掉，他想知道这房子能卖多少钱？

现在已经有许多组数据，包含房子面积和对应价格，那么怎样去预测一个没有出现在已知面积中的房子所可能卖出的价格？这里是一个**监督学习**的例子，有数据（面积）有正确标签（价格）。通过学习，可以算出更多的正确结果。

又一个经典例子：假设说你想通过查看病历来推测乳腺癌良性与否，假如有人检测出乳腺肿瘤，恶性肿瘤有害并且十分危险，而良性的肿瘤危害就没那么大，所以人们显然会很在意这个问题

![肿瘤1.png-73kB][2] 在这个例子中横轴是肿瘤大小，纵轴是是否为恶性（1/0），需要通过学习预测一个肿瘤是否为恶性的。上面两个例子都是监督学习的例子，但又不是同一种监督学习的类型。1.是回归问题(Regression)，用来预测连续的输出值，把放假看成实数，预测连续的属性。2.是分类问题(Classification)，预测一个结果是/否是一类结果，输出为离散的（1/0）。分类问题不仅可以区分二分类，也可以进行多分类。多分类可以拆成一对多进行处理。

1.4 无监督学习

右图这种聚类问题就是无监督学习，监督的意思在这里表示为多类数据是否存在异类的标签，如果不存在则为无监督学习，算法要自行学习样本的特征，并进行分类。

聚类应用的一个例子:
在谷歌新闻中。如果你以前从来没见过它，你可以到这个 URL网址 news.google.com去看看。谷歌新闻每天都在，收集非常多，非常多的网络的新闻内容。它再将这些新闻分组，组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件，自动地把它们聚类到一起。所以，这些新闻事件全是同一主题的，所以显示到一起。

新闻事件分类，细分市场等都可以看为是无监督学习的例子。

第二章单变量线性回归

2.1 模型表示

还是用那个房价预测的例子。用房子面积（变量x）预测房子价格（预测目标y）。这是一个回归问题。

机器学习（Coursera吴恩达）（一）

用这样的训练集（train set）进行训练。

机器学习（Coursera吴恩达）（一）

$h$ 表示一个函数，对输入 $x$ 预测输出 $y$ 。线性回归中 $h_{θ} (x) = θ_{0} + θ_{1} x$ 为线性表示。由于只有一个变量 $x$ 因此是单变量线性回归。回归是指我们根据之前的数据预测出一个准确的输出值。

我们把训练集里的房屋价格喂给学习算法，学习算法工作了，得到一个函数 $h$ (hypothesis(假设))， $h$ 的输入为房屋面积，输出为房屋价格。我们就可以利用这个函数进行房价的预测。

代价函数

$H y p o t h e s i s 假设函数 : h_{θ} (x) = θ_{0} + θ_{1} x$
$θ_{i^{'} s} : P a r a m e t e r s 参数$
问题是如何选择参数 $θ$ ，使假设函数能够模拟房价趋势。
我们的目标是使假设函数 $h$ 的输出与真实值误差最小，即代价函数：

代价函数表示的是以 $θ$ 为参数的函数的输出值与真实值的误差。误差越大表示代价越大，误差越小代价也就越小。因此学习的过程也就是以代价函数为目标，以 $θ$ 为参数使代价函数 $J$ 处于极小点。

代价函数(cost function)也被称为平方误差函数，有时也被成为平方误差代价函数。

代价函数的各个参数，最终目标是选取合适的 $θ$ cost function处于极小点，也就是平方误差和最小（对每个样本点的误差求和，而不是针对某一点）。
机器学习（Coursera吴恩达）（一）

如果是 $θ$ 是二维向量，或者更高维度的向量，同样也是寻找代价函数关于 $θ$ 的极小点。最终使用 $θ$ 确定假设函数 $h$ 使其输出更精确。
机器学习（Coursera吴恩达）（一）

在这里，优化 $θ$ 的方法使用梯度下降法，最普通的就是batch gradient descent批量梯度下降。

批量梯度下降指的是在每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要及逆行求和计算，所以在每一个单独的梯度下降中，我们都要计算这样一个东西，这个项对所有m个训练样本求和。因此批量梯度下降法这个名字说明了我们需要考虑所有这‘一批’训练样本。

机器学习（Coursera吴恩达）（一）
在每一次迭代中对各个参数分别求偏导，并按一定的学习率 $α$ 进行下降。

下面以二维 $θ ： [θ_{0}, θ_{1}]$ 为例，展示梯度下降法计算过程。
机器学习（Coursera吴恩达）（一）

机器学习（Coursera吴恩达）（一）

线性代数

这块就算了吧，还是去看书吧。