【问题标题】:Visualizing clusters using TSNE使用 TSNE 可视化集群
【发布时间】:2018-07-11 01:36:03
【问题描述】:

我有一个数据集,我需要对它进行聚类和显示,其中同一聚类中的元素应该看起来更接近。该数据集基于一项研究,有大约 16 行(条目)和大约 50 个特征。我确实同意它不是一个理想的数据集,但不幸的是,这就是目前的情况。

以下是我采取的方法:

我首先在数据集上应用 KMeans 规范化后。

同时,我还尝试使用 TSNE 将数据映射到二维并将它们绘制在散点图上。根据我对 TSNE 的理解,该技术应该已经将同一集群中的项目彼此更靠近。然而,当我查看散点图时,集群确实无处不在。

散点图的结果可以在这里找到:https://imgur.com/ZPhPjHB

这是因为 TSNE 和 KMeans 本质上的工作方式不同吗?我应该只做 TSNE 并尝试标记集群(如果是,如何标记?)还是应该使用 TSNE 输出以某种方式输入 KMeans?

我是这个领域的新手,非常感谢您的建议!

再次提前感谢

编辑:如果我首先使用 TSNE 将维度减少到 2,然后使用这些减少的维度使用 KMeans 进行聚类,则会发生相同的重叠

【问题讨论】:

  • 是的,TSNE 和 kmeans 的工作方式非常不同。特别是,tSNE 需要更多的数据才能正常工作。 16 太小了,对于 kmeans 来说,它可能太小了。我宁愿使用层次聚类。

标签: cluster-analysis data-science


【解决方案1】:

应用 tSNE 和拟合 k-means 是您可以开始的基本内容之一。 我会说考虑使用不同的 f 散度。

f-散度下的随机邻域嵌入https://arxiv.org/pdf/1811.01247.pdf

本文尝试了五种不同的 f 散度函数:KL、RKL、JS、CH(卡方)、HL(海灵格)。

这篇论文讨论了哪种分歧在精确度和召回率方面强调了什么。

【讨论】:

    【解决方案2】:

    TSNE 和 KMeans 之间存在差异。 TSNE 主要用于可视化,它尝试将点投影到 2D/3D 空间(从更大的空间)以保持距离(如果在更大的空间中 2 个点很远,TSNE 将尝试显示它)。

    所以 TSNE 不是真正的集群。这就是为什么结果你会得到那个奇怪的散点图。

    对于 TSNE,有时您需要先应用 PCA,但如果您的功能数量很大,则需要这样做。只是为了加快计算速度。

    如前所述,尝试使用层次聚类或简单地生成更多行。

    【讨论】:

      猜你喜欢
      • 2020-05-05
      • 1970-01-01
      • 2014-04-18
      • 2020-10-24
      • 1970-01-01
      • 2021-01-19
      • 2020-03-30
      • 1970-01-01
      • 2018-05-23
      相关资源
      最近更新 更多