《统计学习方法第二版》学习笔记1

第1章统计学习及监督学习概率论

前言

本文主要参考资料：
- 《统计学习方法》第二版李航
- 《统计学习方法》第二版PPT 袁春

这次学习笔记主要记录《统计学习方法》的一些重要知识点及其拓展、相关代码实现和一些思考，起因是我们可爱美丽的V同学发动的组队学习打卡活动。本人并非计算机相关专业，学识尚浅，如有疏忽错误，敬请指正。

1 理论部分

【导读】本章简述了统计学习及监督学习的一些基本概念。1.1 ~ 1.3节是统计学习的相关概念，1.4 ~ 1.8节是监督学习的相关概念。由于内容比较多，我挑了一些认为需要注意的内容，主要是以提问的方式来引起思考发散，大多数内容可以在书中找到答案，其中有些内容并没有固定的答案，需要大家查资料或结合实际思考。本章主要内容我整理成了一份思维导图，下面附上链接。

链接：https://pan.baidu.com/s/1wtdjnMku0G8fKyfUpJZfCQ
提取码：wxed

《统计学习方法第二版》学习笔记1

1.1 统计学习

【思考】统计学习与机器学习的关系
书中统计学习和机器学习有很多的交叉，看起来概念也很相似，也给出了统计学习的概念。那我们来看下机器学习的概念，再分析下它们的区别。
- 维基百科
  机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。
- 统计学习和机器学习的区别：
  - 研究方法差异
    统计学研究形式化和推导
    机器学习更容忍一些新方法
  - 维度差异
    统计学强调低维空间问题的统计推导（confidence intervals, hypothesis tests, optimal estimators）
    机器学习强调高维预测问题
  - 统计学和机器学习各自更关心的领域：
    统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution, semiparametric inference, bootstrapping, time series.
    机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.
【思考】统计学习的重要性
统计学习已经成功地应用到了人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中，并且成为这些领域的核心技术。随着人们对数据的重视、计算机算力的提升以及未来更高级的人工智能的发展趋势，我们可以预测，统计学习以后能渗透进更多的行业。关键我们要掌握统计学习的处理思想，能够把自己面对的问题转化成数学描述，用统计学习的相关方法去解决它们。

1.2 统计学习的分类

【思考】统计学习的基本分类有几种？每种分类有什么特点？你能举出每种分类的一些经典应用吗？
【思考】除了基本分类，统计学习还能怎样分类？分类的依据是什么？

1.3 统计学习方法三要素

【思考】统计学习方法三要素是什么？它们有什么关系吗？
【思考】什么是模型？
【思考】什么是策略？怎么选择最优的策略？有没有什么量化指标？
【思考】什么是损失函数和风险函数？它们之间有什么关系？常用的损失函数有哪几种？每种损失函数适合处理什么问题？
【思考】什么是经验风险？经验风险和期望风险（风险函数）的区别？现实中怎么利用经验风险来使得期望风险最小化？
【思考】什么是经验风险最小化和结构风险最小化？这两个策略分别适合怎样的场景？
【思考】什么是算法？

1.4 模型评估与模型选择

【思考】怎么进行模型评估？有没有什么量化指标？
【思考】什么是训练误差与测试误差？在模型评估中，哪个指标更重要？为什么？
【思考】什么是过拟合？什么情况容易出现过拟合？什么是模型选择？如何进行模型选择？常用的模型选择方法有哪些？

《统计学习方法第二版》学习笔记1

1.5 正则化与交叉验证

【思考】什么是正则化？它和结构风险最小化有什么关系吗？常见的正则化项（罚项）有哪些？它们适合哪些场景？
【思考】什么是交叉验证？交叉验证适合什么场景？交叉验证的分类？

1.6 泛化能力

【思考】什么是泛化能力？怎么评价泛化能力？
【思考】什么是泛化误差？有什么意义？和期望风险有什么关系吗？
【思考】什么是泛化误差上界？有什么意义？有什么性质？

1.7 生成模型与判别模型

【思考】什么是生成方法和生成模型？有什么特点？常见的生成模型有哪些？
【思考】什么是判别方法和判别模型？有什么特点？常见的生成模型有哪些？

1.8 监督学习应用

【思考】监督学习主要应用在哪些方面？
【思考】什么是分类问题？分类问题的过程？评价分类模型的指标？常用的统计学习方法？常见应用场景？

《统计学习方法第二版》学习笔记1

【思考】什么是标注问题？标注问题的过程？评价标注模型的指标？常用的统计学习方法？常见应用场景？

《统计学习方法第二版》学习笔记1

【思考】什么是回归问题？回归问题的过程？回归问题的分类？评价回归学习的指标？常用的统计学习方法？常见应用场景？

《统计学习方法第二版》学习笔记1

第1章 统计学习及监督学习概率论

目录

前言

1 理论部分

1.1 统计学习

1.2 统计学习的分类

1.3 统计学习方法三要素

1.4 模型评估与模型选择

1.5 正则化与交叉验证

1.6 泛化能力

1.7 生成模型与判别模型

1.8 监督学习应用

第1章统计学习及监督学习概率论