【发布时间】:2020-09-07 16:35:35
【问题描述】:
我有以下简单的小表,我使用 k-means 聚类算法对它们进行聚类。
| |集群| ItalianRe|日本料理|披萨|三明治|快餐| |-----------------|-------|----------|--------|--- --|--------|---------| |多伦多市中心 | 0 |33 |8 |17 |10 |2 |多伦多市中心 | 1 |77 |55 |12 |17 |14 |东多伦多 | 2 |7 |9 |2 |4 |3 |东约克| 2 |4 |3 |4 |3 |1 |怡陶碧谷 | 0 |18 |6 |20 |7 |9 |北约克| 2 |4 |9 |9 |13 |14 |士嘉堡 | 3 |1 |8 |23 |15 |29 |西多伦多 | 2 |7 |5 |7 |7 |5 |约克 | 2 |8 |4 |7 |2 |0对我来说,士嘉堡和北约克看起来非常相似,“三明治”和“快餐”中的数字很高,而“日本”中的数字相同。然而,Scarborough 是单独分组的,North Yotk 是由其他四个项目分组的,乍一看实际上并不那么熟悉。
我使用以下代码进行聚类
# run k-means clustering
kmeans = KMeans(init="k-means++", n_clusters=4, ).fit(df)
谁能帮我理解为什么会发生这种情况,或者是否有办法解决这个问题。
附:当我昨天运行我的代码时,我假设它将这两个聚集在一个组中。但现在它聚集成这样了。
【问题讨论】:
标签: python python-3.x cluster-analysis k-means