机器学习(ML)
机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
1. 基本术语
- 学习(训练):从数据中学得模型的过程
- 训练集:参与模型训练的样本集合
- 测试:学得模型后,使用其样本进行预测的过程
- 测试集(专家集):被预测的样本集合
- 假设:学得模型对应的关于数据的某种潜在规律
- 分类:输出结果是离散值
- 回归:输出结果是连续值
- 监督学习:训练样本有标记
- 无监督学习:训练样本无标记
- 泛化能力:学得模型适用于新样本的能力
- 独立同分布:样本空间的全体样本都服从一个未知的分布,且相互独立
2. 假设空间
归纳与演绎:
1.归纳:从特殊到一般的“泛化”:从样例(训练样本)中学习。
如:根据已知数据集总结满足何种条件的西瓜是好瓜?
色泽乌黑、根蒂蜷缩、敲声浊响的就是好瓜?
色泽乌黑、根蒂稍蜷、敲声沉闷的就不是好瓜?
通过对数据集中的训练集进行机器学习建立模型来推测好瓜的特点和规律;
版本空间:与训练集一致的假设的集合称为“版本空间”。
顾名思义就是包含训练集属性对应值的一个或几个的集合;
2.演绎:从一般到特殊的“特化”:从数学公理推导出定理。
3. 归纳偏好
对新样本,不同假设可能输出不同结果。问题:该相信哪条假设?
已有训练集6个样例(x,y),要学得与其一致的模型,相当于找到一条穿过所有点的曲线。然而这样的线有无数多条。
学习算法必有偏好,选择不同的算法会产生不一样的结果;那么如何选择一个好的模型或者算法?
可以采用简单优先的原则,也叫奥卡姆剃刀原则。
END