机器学习之西瓜书-第1章 绪论

整体评价:

简单、以概念为主

知识点:

machine learning:机器学习
Mitchell1997年给出了一个更形式化的定义:

  • 假设用P,来评估计算机程序在某任务类T上的性能,若一个程序,通过利用经验E,在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

术语

  • data set:数据集,所有观测值的集合
  • instance/sample:示例或样本,观测值
  • attribute/feature:属性或特征,即维度
  • dimensionality:维数,维度的数量
  • training data:训练集
  • testing data:测试集
  • label:标记 ,即Y
  • feature selection:特征选择

有监督学习和无监督学习

  • supervised learning:有监督学习(有明确答案),代表为binary/multi-class classification二分类/多分类,regression回归
  • unsupervised learning:无监督学习(无明确答案),代表为clustering聚类

模型评估

  • 拟合能力,对training data训练集的考察,避免过拟合和欠拟合
  • generalization:泛化能力,对testing data测试集的考察,机器学习目标是使学得的模型能更好地适用于“新样本”,而不只是在训练集上做的好

归纳和演绎

  • induction:归纳,从特殊到一般的“泛化”generalization过程,形成概念
  • deduction:演绎,从一般到特殊的“特化”specialization过程,从基本原理/概念推演出具体情况

奥卡姆剃刀-Occam’s razor

  • 简单有效原理:简单有效、可证伪的更好
  • 如无必要,勿增实体
    机器学习之西瓜书-第1章 绪论

相关文章: