第1章 统计学习及监督学习概率论
目录
前言
-
本文主要参考资料:
- 《统计学习方法》第二版 李航
- 《统计学习方法》第二版PPT 袁春
这次学习笔记主要记录《统计学习方法》的一些重要知识点及其拓展、相关代码实现和一些思考,起因是我们可爱美丽的V同学发动的组队学习打卡活动。本人并非计算机相关专业,学识尚浅,如有疏忽错误,敬请指正。
1 理论部分
【导读】本章简述了统计学习及监督学习的一些基本概念。1.1 ~ 1.3节是统计学习的相关概念,1.4 ~ 1.8节是监督学习的相关概念。由于内容比较多,我挑了一些认为需要注意的内容,主要是以提问的方式来引起思考发散,大多数内容可以在书中找到答案,其中有些内容并没有固定的答案,需要大家查资料或结合实际思考。本章主要内容我整理成了一份思维导图,下面附上链接。
链接:https://pan.baidu.com/s/1wtdjnMku0G8fKyfUpJZfCQ
提取码:wxed
1.1 统计学习
-
【思考】统计学习与机器学习的关系
书中统计学习和机器学习有很多的交叉,看起来概念也很相似,也给出了统计学习的概念。那我们来看下机器学习的概念,再分析下它们的区别。- 维基百科
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
- 统计学习和机器学习的区别:
- 研究方法差异
统计学研究形式化和推导
机器学习更容忍一些新方法 - 维度差异
统计学强调低维空间问题的统计推导(confidence intervals, hypothesis tests, optimal estimators)
机器学习强调高维预测问题 - 统计学和机器学习各自更关心的领域:
统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution, semiparametric inference, bootstrapping, time series.
机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.
- 研究方法差异
- 维基百科
-
【思考】统计学习的重要性
统计学习已经成功地应用到了人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。随着人们对数据的重视、计算机算力的提升以及未来更高级的人工智能的发展趋势,我们可以预测,统计学习以后能渗透进更多的行业。关键我们要掌握统计学习的处理思想,能够把自己面对的问题转化成数学描述,用统计学习的相关方法去解决它们。
1.2 统计学习的分类
-
【思考】统计学习的基本分类有几种?每种分类有什么特点?你能举出每种分类的一些经典应用吗?
-
【思考】除了基本分类,统计学习还能怎样分类?分类的依据是什么?
1.3 统计学习方法三要素
-
【思考】统计学习方法三要素是什么?它们有什么关系吗?
-
【思考】什么是模型?
-
【思考】什么是策略?怎么选择最优的策略?有没有什么量化指标?
-
【思考】什么是损失函数和风险函数?它们之间有什么关系?常用的损失函数有哪几种?每种损失函数适合处理什么问题?
-
【思考】什么是经验风险?经验风险和期望风险(风险函数)的区别?现实中怎么利用经验风险来使得期望风险最小化?
-
【思考】什么是经验风险最小化和结构风险最小化?这两个策略分别适合怎样的场景?
-
【思考】什么是算法?
1.4 模型评估与模型选择
-
【思考】怎么进行模型评估?有没有什么量化指标?
-
【思考】什么是训练误差与测试误差?在模型评估中,哪个指标更重要?为什么?
-
【思考】什么是过拟合?什么情况容易出现过拟合?什么是模型选择?如何进行模型选择?常用的模型选择方法有哪些?
1.5 正则化与交叉验证
-
【思考】什么是正则化?它和结构风险最小化有什么关系吗?常见的正则化项(罚项)有哪些?它们适合哪些场景?
-
【思考】什么是交叉验证?交叉验证适合什么场景?交叉验证的分类?
1.6 泛化能力
-
【思考】什么是泛化能力?怎么评价泛化能力?
-
【思考】什么是泛化误差?有什么意义?和期望风险有什么关系吗?
-
【思考】什么是泛化误差上界?有什么意义?有什么性质?
1.7 生成模型与判别模型
-
【思考】什么是生成方法和生成模型?有什么特点?常见的生成模型有哪些?
-
【思考】什么是判别方法和判别模型?有什么特点?常见的生成模型有哪些?
1.8 监督学习应用
-
【思考】监督学习主要应用在哪些方面?
-
【思考】什么是分类问题?分类问题的过程?评价分类模型的指标?常用的统计学习方法?常见应用场景?
- 【思考】什么是标注问题?标注问题的过程?评价标注模型的指标?常用的统计学习方法?常见应用场景?
- 【思考】什么是回归问题?回归问题的过程?回归问题的分类?评价回归学习的指标?常用的统计学习方法?常见应用场景?