机器学习
一、初识机器学习
1.什么是机器学习?
对于机器学习到现在都还没有统一的定义,但是,通过一个例子和较权威的定义来理解机器学习,最后附上我个人对机器学习的理解:
- Samual玩跳棋玩的不好,但是,Samual编写了一个跳棋程序,Samual通过与该程序进行上万次的博弈,通过观察哪些布局容易赢,哪些布局容易输,一段时间后程序学会了什么是好的布局,什么是不好的布局,最终程序的跳棋玩的比Samual好。
- 计算机程序从经验E中学校学习,解决某一任务T,进行某一性能量度P,通过P测定在T上的表现因经验E而提高。对于上面的例子,E就是与跳棋程序博弈上万次,任务T就是玩跳棋,P就是与新手博弈时,程序赢的概率。
- 我的理解就是:让程序做某些事情,积累经验,然后,再遇到类似的问题时,程序因之前的经验的累积,增加了该程序能处理好该类似问题的概率,这个过程就是机器学习。
2.监督学习
(1)监督学习基本思想:我们数据集中的每个样本都有相应的“正确答案”,即每个样本都是真实值,再根据这些样本作出预测。
举一个房价预售的例子来说明:
eg:下面图中的红叉叉表示真实的的售值,然后,我们根据这些真实的样本值模拟一次回归曲线或者二次回归曲线去预测250feet2的房子售价为多少
(2)在监督学习中,我们要区分回归问题和分类问题,但是其都属于监督学习:
-
回归问题,即通过回归来推出一个连续的输出
eg:你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你想预测接下来的三个月能卖多少件,属于回归问题 -
分类问题,其目标是推出一组离散的结果
eg:你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过,属于分类问题
3.无监督学习
(1)无监督学习思想:无监督学习中没有任何的标签,或者是所有数据有相同的标签,或者所有数据就都没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集,无监督学习就能将数据分为不同的聚集簇,即做聚类算法。但是,聚类只是无监督学习中的一种。。
举一个肿瘤的例子:
eg:下面的圈圈表示从不同人中提取的肿瘤样本,我们不知道到其是阳性还是阴性,即没有标签。通过无监督学习算法可能会把这些数据分成两个不同的簇。
(2)判断监督学习与无监督学习小结:
- ①对于给定的数据集中的元素是不是同一标签,或者统一没有标签,若不是统一的,则说明是监督学习
- ②是统一的再看每个元素是否有其相应的“正确答案”或意义,若有,则是监督学习,若没有这是无监督学习