机器学习定义

Arthur Samuel(1959).Machine Learning:Field of study that gives conputers the ability to learn without being explicitly programmed.
他将机器学习定义为:在没有明确设置的情况下,使计算机具有学习能力的研究领域
另一个定义:
Tom Michel(1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performence measure P, if its performence on T, as measured by P, improves with experience E.
计算机程序从经验E中学习,解决某一任务T,进行某一度量P,通过P测定在T上的表现因经验E而提高
对于一个下棋程序,E是程序与自己下几万次棋,任务T就是玩跳棋,度量P就是与新对手玩跳棋时赢的概率。
再举个例子,想象邮件系统根据你将邮件标记为垃圾邮件或者不标记进行学习,如何更好地区分垃圾邮件,在这个例子中,T是区分垃圾邮件和非垃圾邮件;E是观察你将邮件标记的行为,P是正确区分邮件的数量或者比例。

机器学习类型

最主要两类是监督学习和无监督学习
简单说,监督学习就是我们教会计算机做某件事情,在无监督学习中,我们让计算机自己学习。

监督学习(Supervised Learning)

想象一下你要预测房价
机器学习入门(吴恩达机器学习)
假设有一间750平方英尺的房子,想要预测这间房子的价格
第一种方法:使用一条直线拟合
机器学习入门(吴恩达机器学习)
第二种方法,更好的方法:使用二次函数或二阶多项式来拟合数据会更好
机器学习入门(吴恩达机器学习)
这是监督学习的一个例子,监督学习是指:我们给算法一个数据集,其中包括了“正确答案”,算法的目的是给出更多的“正确答案”,用更专业的术语来定义,它也被称为回归问题(Regression):预测连续的数值输出。价格是离散的,但我们通常认为房价是一个实数,,标量或是连续值。

另一个监督学习的例子
假设要预测乳腺癌是良性或者恶性,恶性对应1,良性对应0,根据肿瘤大小判断
机器学习入门(吴恩达机器学习)
现在有5个良性样本和5个恶性样本,现在要预测粉色所表示的肿瘤是良性或恶性,机器学习的问题就是:是否能预测良性或恶性的概率;用专业的术语来说,这就是一个分类问题(Classification),分类是指我们设法预测一个离散值输出0或1,实际中也可能有两个以上的输出值。

另一种表示方式:
机器学习入门(吴恩达机器学习)在这个例子中只有一个特征:肿瘤大小,在实际中可能会有多个特征
机器学习入门(吴恩达机器学习)

比如现在增加了年龄属性,蓝色表示良性,红色表示恶性,现在要预测粉色处的肿瘤类型,学习算法可能决定使用一条直线分离这两类,这时学习算法 就判定粉色为良性的概率大于恶性的概率。
实际中也会有无穷多的属性,那么如何处理无穷多的属性?

无监督学习(Unsupervised Learning)

在监督学习中,我们已经被清楚地告知了什么是所谓的“正确答案”,即肿瘤是良性还是恶性:
机器学习入门(吴恩达机器学习)
而在无监督学习中,我们得到的数据可能没有任何标签,都具有相同的标签或者都没有标签,我们不知道要拿它来做什么,也不知道每个数据点是什么,我们只被告知这里有一个数据集,你能在其中找到某种结构吗?
机器学习入门(吴恩达机器学习)
无监督学习可能将数据分为两个不同的簇,这就是聚类算法(clustering algorithm),一个例子是谷歌新闻,它每天去网络上收集几万条甚至几十万条新闻,然后将它们组合成一个个新闻专题。
无监督学习只是告诉算法,这又一堆数据,我不知道这些数据是什么,我不知道谁是什么类型,我甚至不知道都有哪些类型,但你能自动找出这些数据的结构吗?因为我们没有把例子数据集的正确答案给算法,所以这就是无监督学习。

无监督学习和聚类算法可以用于计算机集群,找出哪些机器趋向于协同工作,如果把这些机器集中到一起,就可以让数据中心更高效的工作。
机器学习入门(吴恩达机器学习)

第二种应用是社交网络的分析,判断哪些人可能相互认识
机器学习入门(吴恩达机器学习)
还有在市场细分中的应用,将用户分到不同的细分市场,在不同的细分市场中进行销售,我们有全部的客户数据,但我们不知道有哪些细分市场,而且也不知道客户属于哪个细分市场。
机器学习入门(吴恩达机器学习)
无监督学习也被用于天文数据分析
机器学习入门(吴恩达机器学习)无监督学习并不仅仅是聚类,以鸡尾酒会为例,大家坐在一起说话,所有声音混杂在一起
假设一个鸡尾酒会上只有两个人,两个人同时说话,房间内有两个位置不同的麦克风,每个麦克风记录了两人声音的不同组合。
机器学习入门(吴恩达机器学习)
鸡尾酒算法能够判断出这是两个人声音的混合,并且能够分离出这两人的声音

相关文章: