使用 TSNE 可视化集群答案

【问题标题】：Visualizing clusters using TSNE使用 TSNE 可视化集群
【发布时间】：2018-07-11 01:36:03
【问题描述】：

我有一个数据集，我需要对它进行聚类和显示，其中同一聚类中的元素应该看起来更接近。该数据集基于一项研究，有大约 16 行（条目）和大约 50 个特征。我确实同意它不是一个理想的数据集，但不幸的是，这就是目前的情况。

以下是我采取的方法：

我首先在数据集上应用 KMeans 规范化后。

同时，我还尝试使用 TSNE 将数据映射到二维并将它们绘制在散点图上。根据我对 TSNE 的理解，该技术应该已经将同一集群中的项目彼此更靠近。然而，当我查看散点图时，集群确实无处不在。

散点图的结果可以在这里找到：https://imgur.com/ZPhPjHB

这是因为 TSNE 和 KMeans 本质上的工作方式不同吗？我应该只做 TSNE 并尝试标记集群（如果是，如何标记？）还是应该使用 TSNE 输出以某种方式输入 KMeans？

我是这个领域的新手，非常感谢您的建议！

再次提前感谢

编辑：如果我首先使用 TSNE 将维度减少到 2，然后使用这些减少的维度使用 KMeans 进行聚类，则会发生相同的重叠

【问题讨论】：

是的，TSNE 和 kmeans 的工作方式非常不同。特别是，tSNE 需要更多的数据才能正常工作。 16 太小了，对于 kmeans 来说，它可能太小了。我宁愿使用层次聚类。

【解决方案1】：

应用 tSNE 和拟合 k-means 是您可以开始的基本内容之一。我会说考虑使用不同的 f 散度。

本文尝试了五种不同的 f 散度函数：KL、RKL、JS、CH（卡方）、HL（海灵格）。

这篇论文讨论了哪种分歧在精确度和召回率方面强调了什么。

【讨论】：

【解决方案2】：

TSNE 和 KMeans 之间存在差异。 TSNE 主要用于可视化，它尝试将点投影到 2D/3D 空间（从更大的空间）以保持距离（如果在更大的空间中 2 个点很远，TSNE 将尝试显示它）。

所以 TSNE 不是真正的集群。这就是为什么结果你会得到那个奇怪的散点图。

对于 TSNE，有时您需要先应用 PCA，但如果您的功能数量很大，则需要这样做。只是为了加快计算速度。

如前所述，尝试使用层次聚类或简单地生成更多行。

【讨论】：