上一讲中,我们学到了如何使用机器学习来判断是非,即二元归类问题(Binary Classification Problems)。这一讲我们将从机器学习的几个要素中学到其他的一些机器学习类别。
一、Learning with Different Output Space
首先第一小节,根据机器学习的Output Space(y)的类别,就会存在有不同的机器学习的处理问题。
1. Multiclass Classification
- 当输出y的值存在多个选项时,例如对硬币进行分类,四种硬币就存在四种不同的输出空间,我们把这种问题称之为多元归类问题;
- 推演到K项输出,那么第二讲中的二元归类就属于此多元归类的一个特例;
2. Regression(回归问题)
- 当输出y不是一个确定的值,而是一个范围的时候,这类问题在统计上称之为回归问题;
- 这部分问题的解决在统计中已经有比较深入的研究,在学习ML时,需要多多地借鉴;
3. Structured Learning
- 这里的结构学习问题比较复杂,可能包含了多个多元归类问题;
- 输出y可能包含多中可能的结构,因为无法很明确地定义各个类别,所以也称Structure为hyperclass(超类)
简单总结如上。
二、Learning with Different Data Label
- 针对训练样本D,如果对每一个输入xn,都有一个明确的与之对应的输出yn,这样的对应关系即是我们要学习的函数f,那么我们把这种类型的学习称为监督式学习(Supervised Learning)。
- 监督式学习,主要包括两大类:分类(Classification)和回归分析(Regression Analysis)
- 与监督式学习相对立的另一种类型,即没有输出标签yn,这种类型我们称之为非监督式学习(Unsupervised learning);
- 最典型的的非监督式学习是聚类(Clustering),通过数据之间的内在联系和相似性将他们分成若干类;
- 例如:对文章进行自动分类、根据消费者记录对其进行自动归类、等等;
- 介于监督式和非监督式学习之间的叫做半监督式学习(Semi-supervised Learning);
- 顾名思义,半监督式学习就是说一部分数据有输出标签yn,而另一部分数据没有输出标签yn;
- 在实际应用中,比如医药公司对某些药物进行检测,考虑到成本和实验人群限制等问题,只有一部分数据有输出标签yn。
- 除了以上三种类型,还有一个很重要的类别叫做增强学习(Reinforcement Learning)
- 增强学习中,根据机器学习输出y采取奖励或者惩罚的反馈,使机器学习及时修正策略,不断通过“反馈-修正”这种形式,一步一步让模型学习的更好,这就是增强学习的核心所在。
- 增强学习的例子也很多,比如根据用户点击、选择而不断改进的广告系统。
简单总结一下,机器学习按照数据输出标签yn划分的话,包括监督式学习、非监督式学习、半监督式学习和增强学习等。其中,监督式学习应用最为广泛。
三、Learning with Different Protocol
按照不同的协议,机器学习可以分为三种类型:
- Batch Learning
- Online
- Active Learning
batch learning是一种常见的类型。batch learning获得的训练数据D是一批的,即一次性拿到整个D,对其进行学习建模,得到我们最终的机器学习模型。batch learning在实际应用中最为广泛。
online是一种在线学习模型,数据是实时更新的,根据数据一个个进来,同步更新我们的算法。比如在线邮件过滤系统,根据一封一封邮件的内容,根据当前算法判断是否为垃圾邮件,再根据用户反馈,及时更新当前算法。这是一个动态的过程。之前我们介绍的PLA和增强学习都可以使用online模型。
active learning是近些年来新出现的一种机器学习类型,即让机器具备主动问问题的能力,例如手写数字识别,机器自己生成一个数字或者对它不确定的手写字主动提问。active learning优势之一是在获取样本label比较困难的时候,可以节约时间和成本,只对一些重要的label提出需求。
简单总结一下,按照不同的协议,机器学习可以分为batch, online, active。这三种学习类型分别可以类比为:填鸭式,老师教学以及主动问问题。
四、Learning with Different Input Space X
上面几部分介绍的机器学习分类都是根据输出来分类的,比如根据输出空间进行分类,根据输出y的标记进行分类,根据取得数据和标记的方法进行分类。这部分,我们将谈谈输入X有哪些类型。
输入X的第一种类型就是concrete features。比如说硬币分类问题中硬币的尺寸、重量等;比如疾病诊断中的病人信息等具体特征。concrete features对机器学习来说最容易理解和使用。
第二种类型是raw features。比如说手写数字识别中每个数字所在图片的mxn维像素值;比如语音信号的频谱等。raw features一般比较抽象,经常需要人或者机器来转换为其对应的concrete features,这个转换的过程就是Feature Transform。
第三种类型是abstract features。比如某购物网站做购买预测时,提供给参赛者的是抽象加密过的资料编号或者ID,这些特征X完全是抽象的,没有实际的物理含义。所以对于机器学习来说是比较困难的,需要对特征进行更多的转换和提取。
简单总结一下,根据输入X类型不同,可以分为concetet, raw, abstract。将一些抽象的特征转换为具体的特征,是机器学习过程中非常重要的一个环节。在《机器学习技法》课程中,我们再详细介绍。
五、总结
Reference:https://blog.csdn.net/red_stone1/article/details/71077351