4.无监督学习--K-means聚类

K-means方法及其应用

1.K-means聚类算法简介：

k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。主要处理过程包括：
1.随机选择k个点作为初始的聚类中心。
2.对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇。
3.对每个簇，计算所有点的均值作为新的聚类中心。

4.重复2、3直到聚类中心不再发生改变。

举例：对于A、B、C、D、E这5个点，我们先随机选择两个点作为簇中心点，标记为红色和黄色，对于第一次聚类结果，我们分别计算所有的点到这两个中心点之间的聚类，我们发现A、B亮点离红色的点距离更近，、C、D、E三点离黄色的点距离更近，所以在第一次聚类过程中，这个簇被定义为：A、B为一个簇，C、D、E为一个簇，接下来，我们将A、B这个簇重新计算它的聚类中心，标记为一个更深颜色的红色的点，C、D、E重新计算他们的簇中心，为一个更深颜色的黄色的点，我们再重新计算这些所有点距离簇中心的距离，接下来我们可以发现，A、B、C可以聚为一个簇，而D、E相对于黄色的簇中心距离更近，所以D、E为一个簇，因此我们再重新计算一下A、B、C这个簇的簇中心和D、E的簇中心，第5张图我们就可以看到簇的组成已经相对稳定了，那么这5个点的聚类结果就是：A、B、C为一个簇，D、E为一个簇，红色和黄色的点分别为这两个簇的簇中心；演变过程如下：

4.无监督学习--K-means聚类

2.K-means的应用

1.数据介绍：
　　现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据，这8个变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。

2.实验目的：
　　通过聚类，了解1999年各个省份的消费水平在国内的情况。
3.技术路线：sklearn.cluster.Kmeans

4.数据实例展示：
1999年全国31个省份城镇居民家庭平均每人全年消费性支出数据，如下所示:

4.无监督学习--K-means聚类

5.实验过程：
　　1.使用算法：K-means聚类算法
　　2.实现过程：
　　　　1.建立工程,导入sklearn相关包
　　　　　　import numpy as np
　　　　　　from sklearn.cluster import KMeans
　　　　2.加载数据，创建K-means算法实例，并进行训练，获得标签：

4.无监督学习--K-means聚类

　　注意：调用K-Means方法所需参数：
　　　　1.n_clusters:用于指定聚类中心的个数
　　　　2.init：初始聚类中心的初始化方法
　　　　3.max_iter:最大的迭代次数
　　　　4.一般调用时只用给出n_clusters即可，init默认是k-means++,max_iter默认是300。

　　其它参数：
　　　　1.data:加载的数据
　　　　2.label:聚类后各数据所属的标签
　　　　3.fit_predict():计算簇中心以及为簇分配序号
　　重点方法解释：
　　　　data,cityName = loadData('city.txt') #loadData()函数是我们自己定义的，具体代码为:

def loadData(filePath):
    fr = open(filePath,'r+')  #r+:读写方式打开一个文本文件
    lines = fr.readlines()
    retData = []
    retCityName = []
    for line in lines:
        items = line.strip().split(",")
        retCityName.append(items[0])
        retData.append(float(items[1]))
        for i in range(1,len(items)):
            return retData,retCityName

View Code