学习脉络:
- 什么是学习?
- 可以学习么?
- 能够学习么?
- 能够更好的学习么?
- 家庭作业?
学习问题
运用一个实例进行解释:观众是如何对电影进行打分的?
10%improvement = 100万美元
为什么使用机器学习:
- 电影评价相关的模式
- 没有机器学习,我们无法精确的用数学描述出来
- 有大量的数据
机器学习的关键: - 一个学习模式
- 没有确定的数学形式
- 数据
机器学习是以上过程的反过程,观众和电影都是独立随机抽样的样本,从中渐渐学习到模式
信贷评估也是一样的:
Formalization:
- input: X (申请人信息-矢量)
- output:y (优质或劣质客户)
- Target Function:
- Data:历史记录
- Hypothesis:
- 其出自于假设集
为什么使用假设集:(1)它没有坏处,假设集意味着更多的参考选择,意味着避免遗漏(2)它使许多问题更加明显
f是未知的,g是已知的,使g与F相似,G值 近似于 F值
字母大写表明相应函数关系的输出
把他们放在一起就是一个学习模型:
输入:
授权条件: “w的大小控制相应属性的重要程度”
线性函数h可以写作:
正负代表授权与否
左图的紫线就是一个随机权值的划分线,右图是经过学习过后纠正的划分线
“可以把threshold换为”
但还需要做一些变换:
“W向量中加入了一个”
相应的, “在W插入的相应位置插入一个1”
这样就是上述的结果了。
进而向量化:
假设数据集是线性可分的,
sign将他们映射到(-1,+1)之间
在初始化假设函数之后,会出现许多的错误分类(回归):
W和X的角度大于90°就是负的,反之就是正的
更新权重向量:
如图所示,更新权重向量的原因主要在于,若分类错误,比如y为1而为负数(角度大于90°),结果就是的平行四边形的对角线,逐渐就会修正为正数(角度小于90°)。若y为-1过程也是类似的。其可行性还要随着学习的深入深入思考。
若出现了错误分类的点,就迭代的执行,但就一次分类来看,其只考虑了错误的点,很有可能修正一个点而导致更多点分类错误。但是只要数据集是线性可分的,那么经过迭代(可能需要很多次)最终一定会划分好。
学习理论产生的前提
用已有数据去挖掘一个潜在过程(目标函数)。
监督学习:输入,正确的输出
非监督学习:输入,?
加强学习:输入,一些正确的输出,输出的分数
Summary:
模式,不能用数学形式进行描述,数据
满足以上三个条件才应用机器学习。