李航《统计学习方法》第二版-第1章统计学习及监督学习概论1.1-1.2 浅见

目的
第一章统计学习及监督学习概论

1.1 统计学习

统计学习是什么，做什么的
统计学习的对象
统计学习的目的
统计学习的方法

1.2 统计学习的分类

基本分类

监督学习

输入空间，输出空间，特征空间
联合概率分布
假设空间

无监督学习
强化学习

按技巧分类

贝叶斯学习
核方法

目的

经过一段时间的深度学习，发现好多机器学习的基础不是很好，特别是统计方面的东西，所以买了李航老师的《统计学习方法》第二版来学习下，希望能补补基础，这样不管是理解理论知识，还是对实践指导，都有很大的意义，数学基础好，才能更好的理解，写下一点自己的浅见吧。既然是用李航老师的书讲，当然要给他宣传下啦，第二版，今年新上的，加了很多新内容，值得学习：
李航《统计学习方法》第二版-第1章统计学习及监督学习概论1.1-1.2 浅见

第一章统计学习及监督学习概论

1.1 统计学习

统计学习是什么，做什么的

一门以数据驱动，多种领域的交叉的学科，目的是用统计学习方法构建模型，对未知数据进行预测和分析。

统计学习的对象

各种数据，文字，图像，音频，视频等

统计学习的目的

对数据进行预测分析，比如预测天气，房价，股市，分析某个事件背后的规律等。

统计学习的方法

基于概率模型进行预测和分析的，主要分为监督学习（简单理解就是有答案告诉你好坏，比如告诉你某些图片是猫，另外一些图片是狗，然后让你看其他的图片，能知道是猫还是狗么），无监督学习（没有告诉你答案，你自己找规律，比如让你把键盘上的按键给我分分类，可以想象最简单就是字母一类，数字一类，可以用到聚类的方法，把特征相同的归类），强化学习（边试错边学习，AlphaGo学下围棋）。

具体方法可以概括为：
有一堆训练数据，假设独立同分布（相互没影响，属于同一个分布），假设要学习的模型来自一个函数集合，可以把模型看成一个函数啦，这个集合成为假设空间，然后需要有某个评价准则，选取一个模型对数据进行最优的预测，也就是选出最好的模型，选取的方法就是一个算法。假设空间，模型选择的准则以及模型学习的算法统称为统计方法三要素,简称为模型，策略，算法。

我用李宏毅老师的课件图修改下来说明下，简单描述就是用训练数据通过算法，从模型集合里选取一个最好的模型来预测未知的数据，比如这个图像识别的例子，识别猴子，猫，狗：
李航《统计学习方法》第二版-第1章统计学习及监督学习概论1.1-1.2 浅见

1.2 统计学习的分类

基本分类

监督学习

通过给定输入输出的对应关系来找出输入到输出的映射的统计规律。

输入空间，输出空间，特征空间

通常的训练数据是成对出现，比如 $Train=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_n,y_n)\}$ ,每个输入变量值x对应一个输出变量值y。同样测试数据也是这样的，每一个数据对是一个样本点。

我们用 $X$ 表示输入变量， $Y$ 表示输出，是定义在输入空间(输入所有可能取值的一个集合)和输出空间输出所有可能取值的一个集合)上的随机变量。

每个输入都可以表示为一个特征向量，特征向量存在的空间叫特征空间，特征向量每一维表示一个特征，比如输入房子信息，可以包含房龄，面积，学区，是否有电梯等等特征，合起来就是一个特征向量。

输入输出变量可以是不同类型。对于预测来说，如果输入输出变量都是连续的预测问题叫做回归问题(比如，预测房价，输入可能是面积，面积是连续的，输出是价格，也是连续的)。

如果输出变量为有限个离散变量的叫做分类问题(比如图像识别，识别是狗y输出0，猫y输出1，猴子y输出2，只要三个值就行，0,1,2)。

如果输入输出均为变量序列的预测问题叫做标注问题(比如给一句英语的每个单词标注一个特性，单词组成的就是一个序列)。

联合概率分布

监督学习有个关于数据的基本假设：假设输入和输出的随机变量 $X，Y$ 遵循联合概率分布 $P(X,Y)$ 。在训练中假设这个存在，但是是未知的，训练和测试数据是按 $P(X,Y)$ 独立同分布产生的，数据存在一定的统计规律。这个好理解，因为监督学习数据都是一对对的，所以可以假设一起出现符合某种统计规律，符合 $P(X,Y)$ 。

假设空间

监督学习目的就是学习一个输入到输出的映射，就是一个模型，这个映射的集合就是假设空间，也就是我们要寻找最优模型的范围。模型可以是概率或非概率，由条件概率分布 $P(Y|X)$ 或者决策函数 $Y=f(X)$ 表示。我们要找的就是一个最优的模型 $f(x_i)$ 使得跟训练集中的 $y_i$ 之间的差越小越好。

无监督学习

给定没有标记的数据，让模型学习数据中的规律，比如数据的类别(聚类)，转换(图片风格转换)，概率。目标是学习数据的统计规律或者潜在结构。学习的是一个隐式结构 $Z,X$ 是输入空间， $x,z$ 是输入和输出，学习的模型表示为函数 $z=g(x)$ ，条件概率分布 $P(z|x)$ ，或者 $P(x|z)$ 。最优模型一般可以表示为
$\displaystyle z=arg \max_{ z} P(z|x)$ 。一般$z=g(x) $用于降维或者聚类，$ P(x|z)$用于概率估计。

强化学习

是一种不断试错，不断学习的过程，基于马尔科夫决策过程。假设只能如图：
李航《统计学习方法》第二版-第1章统计学习及监督学习概论1.1-1.2 浅见
在每一个时刻t，我们观察到一个状态 $state_{t}$ ，然后得到一个奖励 $reward_{t}$ ，采取一个动作Action，然后环境在t+1个时刻将状态改成 $state_{t+1}$ ，奖励为 $reward_{t+1}$ ，要学习的策略就是在给定state下采取的Action。Agent的目是长期积累奖励reward最大化，也就是期望最大化，整个过程会不断的试错，达到学习到最优策略的目的。

强化学习的马尔科夫决策过程是s（状态），r（奖励），a（动作）序列上的随机过程，由五元组 $<s,a,p,r,$ $\gamma$ $>$ 组成：

$s$ 是有限状态state的集合。
$a$ 是有限动作的action的集合。
$p$ 是状态转换的概率函数，是条件概率，即在t时刻下状态 $s$ ，采取动作 $a$ ，转换到t+1时刻下的状态 $s_{t+1}$ 的概率，表示为 $p(s_{t+1}|s_{t},a_t)$ 。
$r$ 是奖励函数，即在t时刻下状态 $s$ ，采取动作 $a$ 后获得的奖励，表示为 $r(s,a)$
$\gamma$ 是衰减系数0-1，即认为当前奖励的权重比较大，之后的会衰减。

马尔科夫决策过程有马尔科夫性，即下一个状态只依赖于前一个状态和动作，由 $p(s_{t+1}|s_{t},a_t)$ 表示，下一个奖励也依赖于前一个状态和动作，由 $r(s,a)$ 表示。

策略 $\pi$ 定义为给定状态下的动作函数 $a=f(s)$ 或者条件概率分布 $P(a|s)$ 。给一个策略 $\pi$ ，智能体和环境互动的行为就已确定。

学习的时候会一般会有两个价值函数作为目标函数：
状态价值函数,策略 $\pi$ 从某个状态s开始到结束的奖励的数学期望：
$v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s]$

动作价值函数,策略 $\pi$ 从某个状态s和动作a开始到结束的奖励的数学期望：
$q_\pi(s,a)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s,a_t=a]$

强化学习就是要选出价值函数最大的策略 $\pi$ 。

按技巧分类

贝叶斯学习

计算条件概率，即后验概率，对模型进行评估，对数据进行预测。
假设变量D表示数据， $\theta$ 表示模型参数，根据贝叶斯定理，可以计算后验概率:
$P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}$
$P(\theta)$ 是先验概率，就是我们通常知道的概率， $P(D|\theta)$ 是似然函数，即在参数 $\theta$ 下，样本D来自 $P(D|\theta)$ 的可能性。

学习时，我们取后验概率最大的模型，测试时，计算数据对后验概率分布的期望值：
$P(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta$
x代表新的样本。

贝叶斯估计和极大似然估计可以联系起来，假设先验分布是均匀分布，取最大后验概率，就能从贝叶斯估计得到最大似然函数。

核方法

用核函数表示学习非线性模型的一种机器学习方法，可以理解为将输入空间映射到一个特征空间(高维空间)，然后进行内机运算，可将线性模型扩展到非线性。电信的就是支持向量机，把线性不可分的问题转化到高维线性可分的问题。

总结
看上去很像没多少东西，不能全按书上来，我可写不完啊，还得稍微提炼点来写，还有打公式真的很类，本来不想打，想直接文字，但是怕看了一知半解，还是学习下公式怎么输入吧，选了一些我觉得比较常用和重点的东西做介绍，可能没有涵盖所有的，想学习的朋友可以去买书来看看，这样效果更好，还有习题呢，先介绍这些了，主要还是一个基本的概念介绍，知道统计学习在做什么，知道统计学习的基本分类，其他的下次再写啦。下次写就不介绍那么多概念了，写的挺累的，书上也都有，还是写一些自己的理解比较好。

好了，今天就到这里了，希望对学习理解有帮助，大神看见勿喷，仅为自己的学习理解，能力有限，请多包涵，部分图片来自李宏毅课件和网络，部分介绍来自李航《统计学习方法》第二版,侵删。