如何在 k-Means 聚类算法中选择哪些列有利于可视化？答案

【问题标题】：How to select which columns are good for visualisation in k-Means clustering algorithm?如何在 k-Means 聚类算法中选择哪些列有利于可视化？
【发布时间】：2020-03-26 03:24:14
【问题描述】：

我正在尝试了解 csv 文件中列的选择，应用 k-means 时应考虑这些列。在下面的链接中，仅将年收入和支出分数作为列（来自 Mall_Customers.csv 文件）用于可视化而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮忙。

【问题讨论】：

标签： python numpy machine-learning k-means kaggle

【解决方案1】：

它们有 3 个可用于集群的功能。通常他们只会取所有特征的欧几里得距离来得到簇到簇的距离。

这很容易在二维中可视化。取两点，它们之间的距离是三角形的斜边。在三个维度上，可视化有点困难。作者只是使用 2 维，以便稍后绘制。但是，要使用所有三个维度，您只需将代码修改为：

X = dataset.iloc[:,[1:3]].values

这将在算法中使用年龄、收入和支出分数

【讨论】：

所以，我们总是需要专注于选择 2 列来可视化数据。
一般来说，如果超过 3 个，您将无法对构成距离的特征进行聚类。但是，您可以执行某些技巧，例如绘制颜色和大小来可视化第 3 维和第 4 维.查看this seaborn plot - 还有一门称为dimensionality reduction 的统计学科，能够以3 个或更少的维度可视化多个维度。