林轩田机器学习基石课程笔记1 -The Learing Problem

一、什么是机器学习

1、什么是“学习”？

机器学习（Machine Learning），顾名思义，就是让机器（计算机）也能向人类一样，通过观察大量的数据和训练，发现事物规律，获得某种分析问题、解决问题的能力。
林轩田机器学习基石课程笔记1 -The Learing Problem

2、什么是“机器学习”？

定义：Improving some performance measure with experence computed from data. 也就是机器从数据中总结经验，从数据中找出某种规律或者模型，并用它来解决实际问题。
林轩田机器学习基石课程笔记1 -The Learing Problem

3、应用场景

应用场景大致可归纳为三个条件：

事物本身存在某种潜在规律 ==》performance measure 可以提升
某些问题难以使用普通编程解决
有大量的数据样本可供使用 ==》作为输入

二、应用

衣、食、住、行、教育、娱乐等各个方面。
eg：推荐系统

三、机器学习组成

基本术语

输入 $x\in\mathcal{X}$
输出 $y\in\mathcal{Y}$
目标函数 $f:\mathcal{X}\rightarrow\mathcal{Y}$ ，即最接近实际样本分布的规律
训练样本 $data，\mathcal{D}=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
假设 $hypothesis$ ，一个机器学习模型对应了很多不同的 $hypothesis$ ，通过演算法 $\mathcal{A}$ ，选择一个最佳的 $hypothesis$ 对应的函数称为矩 $g:\mathcal{X}\rightarrow\mathcal{Y}$ ， $g$ 能最好地表示事物的内在规律，也是我们最终要得到的模型表达式。

则实际机器学习流程图可表示为：
林轩田机器学习基石课程笔记1 -The Learing Problem
对于理想的目标函数 $f$ ，它是未知的。给定训练样本 $D$ ，假设为监督学习，其中输入为 $x$ ，输出为 $y$ 。机器学习过程：根据先验知识选择模型，该模型对应的 $hypothesis\ set$ （用 $\mathcal{H}$ 表示）， $\mathcal{H}$ 中包含许多不同的 $hypothesis$ ， 通过演算法 $\mathcal{A}$ ，在训练样本 $\mathcal{D}$ 上进行训练，选择出一个最好的 $hypothes$ ，对应的函数表达式 $g$ 就是最终要求的。 一般情况下， $g$ 能最接近目标函数 $f$ 。这样，机器学习的整个流程就完成了。

四、其他领域

与机器学习相关的领域有：

数据挖掘（Data Mining）
人工智能（Artificial Intelligence）
统计（Statistics）

小结

什么是机器学习？适用场景？
机器学习整个过程。
机器学习与其他相关领域的比较。