台湾大学机器学习基石课程(林轩田) 第一讲笔记

第一讲 The Learning Problem

机器学习的本质:

  1. 存在一个模式(A pattern exists)
  2. 该模式无法用数学的方法确定(We cannot pin it down mathematically)
  3. 拥有对该问题的数据(We have data on it)

学习问题的组成
将这个问题进行形式化:

  • 输入:X
  • 输出:y
  • 目标函数: f: χ → y
    定义域X为D维向量的集合,值域y是一个包含+1和-1的集合
    该目标函数是理想中的公式,是我们未知的
  • 数据:(X1,y1),(X2,y2), … ,(XN,yN)为过往的记录
    其后的思想在于,认为大量的历史记录能够捕获目标函数的本质
  • 假说:g: X → y 是我们获得的公式,是对目标函数的近似f未知,g是对f的近似
    使得g尽可能好地近似f是学习的目标
    台湾大学机器学习基石课程(林轩田) 第一讲笔记
    我们无法直接看到目标函数,我们只能通过训练集间接地看到它,我们希望能最终获得一个近似f的假说g。
    将训练集和最终假说连接起来的是学习算法A,学习算法接受训练集,产生最终假说:
    台湾大学机器学习基石课程(林轩田) 第一讲笔记
    学习算法从一个预设的假说集合(候选公式集合)H中选取一个假说h,作为最后的g:
    台湾大学机器学习基石课程(林轩田) 第一讲笔记
    学习算法和假说集合合起来称为学习模型,选择一个学习模型意味着同时选择了一个假说集合(例如神经网络)和一个学习算法(例如反向传播)。

相关文章: