监督学习
监督学习在分类问题中相当普遍,因为目标通常是让计算机学习我们创建的分类系统。再一次,数字识别是分类学习的一个常见例子。更一般地说,分类学习适用于推导分类有用且分类容易确定的任何问题。在某些情况下,如果代理可以自己进行分类,甚至可能没有必要对问题的每个实例进行预先确定的分类。这将是分类上下文中无监督学习的一个例子。
监督学习是训练神经网络和决策树的最常用技术。这两种技术都高度依赖于预先确定的分类给出的信息。在神经网络的情况下,分类用于确定网络的误差,然后调整网络以使其最小化,而在决策树中,分类用于确定哪些属性提供最多可用于解决的信息分类难题。我们将更详细地研究这两个例子,但就目前而言,知道这两个例子都以预先确定的分类形式进行一些“监督”就足够了。
使用隐马尔可夫模型和贝叶斯网络的语音识别也依赖于监督的一些元素,以便像往常一样调整参数以最小化给定输入的错误。
注意这里很重要的一点:在分类问题中,学习算法的目标是最小化给定输入的误差。这些输入,通常称为“训练集”,是代理尝试学习的示例。但学好训练集并不一定是最好的事情。例如,如果我试图教你异或,但只向你展示了由一个真和一个假组成的组合,而不是两个假或两个真,你可能会学到答案总是正确的规则。类似地,对于机器学习算法,一个常见的问题是过度拟合数据并从本质上记住训练集,而不是学习更通用的分类技术。
无监督学习
无监督学习似乎要困难得多:目标是让计算机学会如何做我们没有告诉它怎么做的事情!无监督学习实际上有两种方法。第一种方法不是通过给出明确的分类来教代理,而是通过使用某种奖励系统来指示成功。请注意,这种类型的训练通常适合决策问题框架,因为目标不是产生分类,而是做出最大化奖励的决策。这种方法很好地推广到了现实世界,在现实世界中,代理可能会因执行某些操作而获得奖励,并因执行其他操作而受到惩罚。
通常,强化学习的一种形式可用于无监督学习,其中代理将其行为基于先前的奖励和惩罚,而不必了解任何有关其行为影响世界的确切方式的信息。在某种程度上,所有这些信息都是不必要的,因为通过学习奖励函数,代理只需知道要做什么而无需任何处理,因为它知道它期望为它可能采取的每个动作获得的确切奖励。在计算每种可能性非常耗时(即使世界状态之间的所有转换概率都已知)的情况下,这可能非常有益。另一方面,通过反复试验来学习可能非常耗时。
但是这种学习可能很强大,因为它假设没有预先发现的示例分类。例如,在某些情况下,我们的分类可能不是最好的。一个引人注目的例子是,当一系列通过无监督学习学习的计算机程序(neuro-gammon 和 TD-gammon)变得比仅靠自己下棋的最优秀的人类棋手更强大时,关于西洋双陆棋游戏的传统智慧被颠覆了。一遍又一遍。这些程序发现了一些令双陆棋专家感到惊讶的原理,并且比在预先分类的示例上训练的双陆棋程序表现更好。
第二种类型的无监督学习称为聚类。在这种类型的学习中,目标不是最大化效用函数,而只是在训练数据中找到相似之处。假设通常是发现的集群将与直观的分类相当匹配。例如,根据人口统计数据对个人进行聚类可能会导致富人聚集在一个群体中,而穷人则聚集在另一个群体中。