【问题标题】:How to select which columns are good for visualisation in k-Means clustering algorithm?如何在 k-Means 聚类算法中选择哪些列有利于可视化?
【发布时间】:2020-03-26 03:24:14
【问题描述】:

我正在尝试了解 csv 文件中列的选择,应用 k-means 时应考虑这些列。 在下面的链接中,仅将年收入和支出分数作为列(来自 Mall_Customers.csv 文件)用于可视化而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮忙。

【问题讨论】:

    标签: python numpy machine-learning k-means kaggle


    【解决方案1】:

    它们有 3 个可用于集群的功能。通常他们只会取所有特征的欧几里得距离来得到簇到簇的距离。

    这很容易在二维中可视化。取两点,它们之间的距离是三角形的斜边。在三个维度上,可视化有点困难。作者只是使用 2 维,以便稍后绘制。但是,要使用所有三个维度,您只需将代码修改为:

    X = dataset.iloc[:,[1:3]].values

    这将在算法中使用年龄、收入和支出分数

    【讨论】:

    • 所以,我们总是需要专注于选择 2 列来可视化数据。
    • 一般来说,如果超过 3 个,您将无法对构成距离的特征进行聚类。但是,您可以执行某些技巧,例如绘制颜色和大小来可视化第 3 维和第 4 维.查看this seaborn plot - 还有一门称为dimensionality reduction 的统计学科,能够以3 个或更少的维度可视化多个维度。
    猜你喜欢
    • 2022-06-16
    • 1970-01-01
    • 2020-03-10
    • 2014-12-19
    • 2017-12-01
    • 2020-10-29
    • 2019-12-18
    • 2011-10-15
    • 2014-02-02
    相关资源
    最近更新 更多