一.无监督学习
1.小例
在说实战之前,我们先来简单说一说机器学习中的无监督学习。举个栗子~~
下面是几张小狗的图片,如果我们让计算机自己把这些图片分成两类,计算机会怎么做呢?
ps:图片均来源于网络,若有侵权请联系删除,谢谢!
因为没有明确的分类标准,所以计算机可能会按照不同的方式对这些图片进行分类,比如:
- 小狗是站着还是坐着
- 小狗脖子处是否有饰品
- 小狗是否露出了舌头
除此之外分类的方式还有很多,从中可以看出无监督学习的一些特点:
- 没有对与错(分类方式不唯一)
- 寻找数据的共同点从而进行分类(无论采用哪种方式进行分类,同类图片都是有共同点的)
通过这个简单的例子,下面就来看一看无监督学习的简单定义吧!
2.简单定义
无监督学习:机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群。
3.优点:
-
算法不受监督信息(偏见)的约束,可能考虑到新的信息
这也就是上例所说的可以按不同方式分类,并没有一个明确的规定 -
不需要标签数据,极大程度扩大数据样本
无监督学习不需要标签数据,这样在面临成千上万个数据时可以让计算机自动去分类从而节省大量的人力成本。
4.主要应用:
聚类分析、关联分析、维度缩减等
这里简单来谈谈聚类分析(对其他应用感兴趣的小伙伴可以自己去找一下相关资料。)
二.聚类分析
1.简单定义:
聚类分析又称为群分析,是根据对象某些属性的相似度,将其自动划分为不同的类别。
2.小例:
例如:
一个公司可以根据自己客户几年来的数据把客户分成普通客户、vip客户、svip客户等等。这样就可以根据不同的客户类型进行不同的商业推广啦。
又比如新闻关联:
给定一个关键词,可以把最近有关这个关键词的最新最热新闻推送出来。
3.常用聚类算法:
- .KMeans聚类
根据数据与中心点距离划分类别
基于类别数据更新中心点
重复过程直到收敛
特点:实现简单、收敛快;需要指定类别数量(需要告诉计算机要分成几类)
- 均值漂移聚类(Meanshift)
在中心点一定区域检索数据点
更新中心
重复流程到中心点稳定
特点:自动发现类别数量,不需要人工选择;需要选择区域半径
- DBSCAN算法(基于密度的空间聚类算法)
基于区域点密度筛选有效数据
基于有效数据向周边扩张,直到没有新点加入
特点:过滤噪音数据;不需要人为选择类别数量;数据密度不同时影响结果
因为后面的实战是基于KMeans算法的,所以这里详细说一下KMeans算法,想更多了解其它算法的小伙伴可以去找找相关资料。
这样可能不太好理解,下面我们来看一看它的执行流程。
假设这里把这些点分为两类,在这些点中随机选择两个聚类中心。
计算每个点到聚类中心的距离,然后将这些点进行分类。
更新聚类中心
重新计算每个点到聚类中心的距离并根据新的距离重新分类
直至中心不再变化为止。
好啦本次的分享就到这里了,下一次直接进入实战环节。 thanks~~