1 Introduction

Welcome

一些复杂问题,如网页搜索,垃圾邮件拦截,标记照片等,我们并不知道如何显式地编写人工智能程序,只能让机器学会如何自己去做。

What is Machine Learning?

定义: 一个好的学习问题定义如下,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判, 程序在处理T时的性能有所提升。

例如:
吴恩达机器学习_第一周笔记
类型:
吴恩达机器学习_第一周笔记

Supervised Learning(监督学习)

监督学习: 数据集已经带有正确答案
包括:
回归:预测连续值输出;
分类:预测离散值输出;
支持向量机可以处理无限多特性的数据集(即无限维数据)

Unsupervised Learning(无监督学习)

无监督学习: 数据集无正确答案,也无类型
包括:
聚类:从大型的数据集中,找出类型结构
非聚类:如鸡尾酒会算法,实现音频分离(SVD:奇异值分解)

建议先用MATLAB挑选算法,然后再用C++或Java去具体实现,但这是比较老的做法,现在多用Python

2 Model and Cost Function

Model Representation

数据集
吴恩达机器学习_第一周笔记
Notation为本课程的符号约定

单变量线性回归模型
吴恩达机器学习_第一周笔记
θ\theta为要预测的参数,hh为要预测的函数,被称为假设函数只是历史问题

Cost Function(代价函数)

吴恩达机器学习_第一周笔记
为了合理选择θi\theta_i,定义了代价函数J(θ1,θ2)J(\theta_1,\theta_2)
能使 J(θ1,θ2)J(\theta_1,\theta_2)最小的(θ1,θ2)(\theta_1,\theta_2)即为最好的(θ1,θ2)(\theta_1,\theta_2),从而得到了最好的h(θ)h(\theta)

吴恩达机器学习_第一周笔记
这里使用的代价函数为平方差代价函数,即使得预测值与真实值的误差平方和最小。以后还会有其他的代价函数。

为什么除以2m? 或许后面的平方求导后可与2约掉

代价函数的图像

先考虑θ0=0\theta_0=0的情况
吴恩达机器学习_第一周笔记
不同的θ1\theta_1对应左图中的不同直线,对应右图中的不同的点,当θ1=0\theta_1=0时, J(θ1)J(\theta_1)最小,也最吻合训练集。

现在来考虑θ0\theta_0θ1\theta_1都不为0的情况
代价函数将是两个自变量的函数
吴恩达机器学习_第一周笔记

但一般不用三维图表示,而用θ0θ1\theta_0-\theta_1图,也就是等高线图来表示

吴恩达机器学习_第一周笔记

3 Parameter Learning (Gradient Descent:梯度下降法)

梯度下降法:
可以解决有限个参数的问题;
但可能会陷入局部最小值,初始值的微小不同就可能导致陷入不同的局部最小值
吴恩达机器学习_第一周笔记
吴恩达机器学习_第一周笔记
梯度下降法可以用下山来比喻:从某一点(即初始值)用小碎步(可选不同的步长)开始下山,每到一个点,选择在此处下山最快的方向(就是切线斜率/梯度最大的方向),从而到下一个点。
吴恩达机器学习_第一周笔记
关于右上角绿色式子:
:=:=是赋值 ==是判定是否相等(来自Pascal语言,和其他语言不一样)
α\alpha是学习速率,决定步长;偏导决定方向;对每一个参数θj\theta_j,都要进行更新,必须同步更新,才是公认的梯度下降法。
不同步更新有时也能得到正确的答案,但不推荐,也不叫做梯度下降法。

一个参数的直观例子

导数项影响下降方向,但总能使代价函数下降
吴恩达机器学习_第一周笔记

步长项影响下降快慢,步长太大会导致发散
吴恩达机器学习_第一周笔记

接下来进入正题:

线性回归的代价函数解法——梯度下降法

将代价函数中的偏导数进一步计算:
吴恩达机器学习_第一周笔记
一般的代价函数可能有多个局部最小值(local minimum),但对于线性规划而言,其代价函数是只有一个全局最小值的凸函数,所以使用梯度下降法,一定会获得全局最优解,不会陷入局部最优。
吴恩达机器学习_第一周笔记
吴恩达机器学习_第一周笔记

4 Linear Algebra Review

矩阵和向量基础知识

吴恩达机器学习_第一周笔记
R4×2R^{4\times2}表示所有4×24\times2矩阵的集合
R4R^4 表示所有四维向量的集合
矩阵一般用大写字母表示,而向量一般用小写字母,常用y
向量是只有一列元素的矩阵
吴恩达机器学习_第一周笔记
0-索引和1-索引:0-索引在编程中常用,1-索引在数学中常用,本课程中用1-索引

矩阵的加法和标量乘法

加法:对应元素相加
相加的两个矩阵维度相同,相加得到的矩阵依然是这个维度

标量乘法(数乘):每个元素都乘以这个数
得到的矩阵和原矩阵维度相同
满足乘法交换律

矩阵与向量相乘

这样的方便应用可以简化代码
吴恩达机器学习_第一周笔记

矩阵与矩阵相乘

可以同时获得不同假设函数的预测结果
吴恩达机器学习_第一周笔记

矩阵乘法性质

不满足交换律: A×B和B×A不一定相等
不满足结合律 :(A×B)×C和A×(B×C)不一定相等
但当单位矩阵出现的时候,交换律和结合律就可以满足
吴恩达机器学习_第一周笔记

矩阵求逆和转置

吴恩达机器学习_第一周笔记
是否能求逆后续再说 不能求逆的矩阵叫做奇异矩阵或退化矩阵

相关文章: