目的

经过一段时间的深度学习,发现好多机器学习的基础不是很好,特别是统计方面的东西,所以买了李航老师的《统计学习方法》第二版来学习下,希望能补补基础,这样不管是理解理论知识,还是对实践指导,都有很大的意义,数学基础好,才能更好的理解,写下一点自己的浅见吧。既然是用李航老师的书讲,当然要给他宣传下啦,第二版,今年新上的,加了很多新内容,值得学习:
李航《统计学习方法》第二版-第1章 统计学习及监督学习概论1.1-1.2 浅见

第一章 统计学习及监督学习概论

1.1 统计学习

统计学习是什么,做什么的

一门以数据驱动,多种领域的交叉的学科,目的是用统计学习方法构建模型,对未知数据进行预测和分析。

统计学习的对象

各种数据,文字,图像,音频,视频等

统计学习的目的

对数据进行预测分析,比如预测天气,房价,股市,分析某个事件背后的规律等。

统计学习的方法

基于概率模型进行预测和分析的,主要分为监督学习(简单理解就是有答案告诉你好坏,比如告诉你某些图片是猫,另外一些图片是狗,然后让你看其他的图片,能知道是猫还是狗么),无监督学习(没有告诉你答案,你自己找规律,比如让你把键盘上的按键给我分分类,可以想象最简单就是字母一类,数字一类,可以用到聚类的方法,把特征相同的归类),强化学习(边试错边学习,AlphaGo学下围棋)。

具体方法可以概括为:
有一堆训练数据,假设独立同分布(相互没影响,属于同一个分布),假设要学习的模型来自一个函数集合,可以把模型看成一个函数啦,这个集合成为假设空间,然后需要有某个评价准则,选取一个模型对数据进行最优的预测,也就是选出最好的模型,选取的方法就是一个算法。假设空间模型选择的准则以及模型学习的算法统称为统计方法三要素,简称为模型,策略,算法

我用李宏毅老师的课件图修改下来说明下,简单描述就是用训练数据通过算法,从模型集合里选取一个最好的模型来预测未知的数据,比如这个图像识别的例子,识别猴子,猫,狗:
李航《统计学习方法》第二版-第1章 统计学习及监督学习概论1.1-1.2 浅见

1.2 统计学习的分类

基本分类

监督学习

通过给定输入输出的对应关系来找出输入到输出的映射的统计规律。

输入空间,输出空间,特征空间

通常的训练数据是成对出现,比如Train={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}Train=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_n,y_n)\},每个输入变量值x对应一个输出变量值y。同样测试数据也是这样的,每一个数据对是一个样本点。

我们用XX表示输入变量,YY表示输出,是定义在输入空间(输入所有可能取值的一个集合)和输出空间输出所有可能取值的一个集合)上的随机变量。

每个输入都可以表示为一个特征向量,特征向量存在的空间叫特征空间,特征向量每一维表示一个特征,比如输入房子信息,可以包含房龄,面积,学区,是否有电梯等等特征,合起来就是一个特征向量。

输入输出变量可以是不同类型。对于预测来说,如果输入输出变量都是连续的预测问题叫做回归问题(比如,预测房价,输入可能是面积,面积是连续的,输出是价格,也是连续的)。

如果输出变量为有限个离散变量的叫做分类问题(比如图像识别,识别是狗y输出0,猫y输出1,猴子y输出2,只要三个值就行,0,1,2)。

如果输入输出均为变量序列的预测问题叫做标注问题(比如给一句英语的每个单词标注一个特性,单词组成的就是一个序列)。

联合概率分布

监督学习有个关于数据的基本假设:假设输入和输出的随机变量XYX,Y遵循联合概率分布P(X,Y)P(X,Y)。在训练中假设这个存在,但是是未知的,训练和测试数据是按P(X,Y)P(X,Y)独立同分布产生的,数据存在一定的统计规律。这个好理解,因为监督学习数据都是一对对的,所以可以假设一起出现符合某种统计规律,符合P(X,Y)P(X,Y)

假设空间

监督学习目的就是学习一个输入到输出的映射,就是一个模型,这个映射的集合就是假设空间,也就是我们要寻找最优模型的范围。模型可以是概率或非概率,由条件概率分布P(YX)P(Y|X)或者决策函数Y=f(X)Y=f(X)表示。我们要找的就是一个最优的模型f(xi)f(x_i)使得跟训练集中的yiy_i之间的差越小越好。

无监督学习

给定没有标记的数据,让模型学习数据中的规律,比如数据的类别(聚类),转换(图片风格转换),概率。目标是学习数据的统计规律或者潜在结构。学习的是一个隐式结构Z,XZ,X是输入空间,x,zx,z是输入和输出,学习的模型表示为函数z=g(x)z=g(x),条件概率分布P(zx)P(z|x),或者P(xz)P(x|z)。最优模型一般可以表示为
z=argmaxzP(zx)\displaystyle z=arg \max_{ z} P(z|x)。一般$z=g(x) 用于降维或者聚类,P(x|z)$用于概率估计。

强化学习

是一种不断试错,不断学习的过程,基于马尔科夫决策过程。假设只能如图:
李航《统计学习方法》第二版-第1章 统计学习及监督学习概论1.1-1.2 浅见
在每一个时刻t,我们观察到一个状态statetstate_{t},然后得到一个奖励rewardtreward_{t},采取一个动作Action,然后环境在t+1个时刻将状态改成statet+1state_{t+1},奖励为rewardt+1reward_{t+1},要学习的策略就是在给定state下采取的Action。Agent的目是长期积累奖励reward最大化,也就是期望最大化,整个过程会不断的试错,达到学习到最优策略的目的。

强化学习的马尔科夫决策过程是s(状态),r(奖励),a(动作)序列上的随机过程,由五元组<s,a,p,r,<s,a,p,r,γ\gamma>>组成:

ss是有限状态state的集合。
aa是有限动作的action的集合。
pp是状态转换的概率函数,是条件概率,即在t时刻下状态ss,采取动作aa,转换到t+1时刻下的状态st+1s_{t+1}的概率,表示为p(st+1st,at)p(s_{t+1}|s_{t},a_t)
rr是奖励函数,即在t时刻下状态ss,采取动作aa后获得的奖励,表示为r(s,a)r(s,a)
γ\gamma是衰减系数0-1,即认为当前奖励的权重比较大,之后的会衰减。

马尔科夫决策过程有马尔科夫性,即下一个状态只依赖于前一个状态和动作,由p(st+1st,at)p(s_{t+1}|s_{t},a_t)表示,下一个奖励也依赖于前一个状态和动作,由r(s,a)r(s,a)表示。

策略π\pi定义为给定状态下的动作函数a=f(s)a=f(s)或者条件概率分布P(as)P(a|s)。给一个策略π\pi,智能体和环境互动的行为就已确定。

学习的时候会一般会有两个价值函数作为目标函数:
状态价值函数,策略π\pi从某个状态s开始到结束的奖励的数学期望:
vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+...st=s]v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s]

动作价值函数,策略π\pi从某个状态s和动作a开始到结束的奖励的数学期望:
qπ(s,a)=Eπ[rt+1+γrt+2+γ2rt+3+...st=s,at=a]q_\pi(s,a)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...|s_t=s,a_t=a]

强化学习就是要选出价值函数最大的策略π\pi

按技巧分类

贝叶斯学习

计算条件概率,即后验概率,对模型进行评估,对数据进行预测。
假设变量D表示数据,θ\theta表示模型参数,根据贝叶斯定理,可以计算后验概率:
P(θD)=P(θ)P(Dθ)P(D)P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)}
P(θ)P(\theta)是先验概率,就是我们通常知道的概率,P(Dθ)P(D|\theta)是似然函数,即在参数θ\theta下,样本D来自P(Dθ)P(D|\theta)的可能性。

学习时,我们取后验概率最大的模型,测试时,计算数据对后验概率分布的期望值:
P(xD)=P(xθ,D)P(θD)dθP(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta
x代表新的样本。

贝叶斯估计和极大似然估计可以联系起来,假设先验分布是均匀分布,取最大后验概率,就能从贝叶斯估计得到最大似然函数。

核方法

用核函数表示学习非线性模型的一种机器学习方法,可以理解为将输入空间映射到一个特征空间(高维空间),然后进行内机运算,可将线性模型扩展到非线性。电信的就是支持向量机,把线性不可分的问题转化到高维线性可分的问题。

总结
看上去很像没多少东西,不能全按书上来,我可写不完啊,还得稍微提炼点来写,还有打公式真的很类,本来不想打,想直接文字,但是怕看了一知半解,还是学习下公式怎么输入吧,选了一些我觉得比较常用和重点的东西做介绍,可能没有涵盖所有的,想学习的朋友可以去买书来看看,这样效果更好,还有习题呢,先介绍这些了,主要还是一个基本的概念介绍,知道统计学习在做什么,知道统计学习的基本分类,其他的下次再写啦。下次写就不介绍那么多概念了,写的挺累的,书上也都有,还是写一些自己的理解比较好。

好了,今天就到这里了,希望对学习理解有帮助,大神看见勿喷,仅为自己的学习理解,能力有限,请多包涵,部分图片来自李宏毅课件和网络,部分介绍来自李航《统计学习方法》第二版,侵删。

相关文章:

  • 2021-08-26
  • 2021-04-30
  • 2021-07-02
  • 2022-12-23
  • 2021-06-12
  • 2022-01-20
  • 2021-06-14
  • 2021-09-21
猜你喜欢
  • 2021-12-26
  • 2021-10-13
  • 2022-12-23
  • 2021-06-18
  • 2021-04-06
  • 2021-10-02
  • 2021-06-12
相关资源
相似解决方案