【发布时间】:2018-07-11 01:36:03
【问题描述】:
我有一个数据集,我需要对它进行聚类和显示,其中同一聚类中的元素应该看起来更接近。该数据集基于一项研究,有大约 16 行(条目)和大约 50 个特征。我确实同意它不是一个理想的数据集,但不幸的是,这就是目前的情况。
以下是我采取的方法:
我首先在数据集上应用 KMeans 规范化后。
同时,我还尝试使用 TSNE 将数据映射到二维并将它们绘制在散点图上。根据我对 TSNE 的理解,该技术应该已经将同一集群中的项目彼此更靠近。然而,当我查看散点图时,集群确实无处不在。
散点图的结果可以在这里找到:https://imgur.com/ZPhPjHB
这是因为 TSNE 和 KMeans 本质上的工作方式不同吗?我应该只做 TSNE 并尝试标记集群(如果是,如何标记?)还是应该使用 TSNE 输出以某种方式输入 KMeans?
我是这个领域的新手,非常感谢您的建议!
再次提前感谢
编辑:如果我首先使用 TSNE 将维度减少到 2,然后使用这些减少的维度使用 KMeans 进行聚类,则会发生相同的重叠
【问题讨论】:
-
是的,TSNE 和 kmeans 的工作方式非常不同。特别是,tSNE 需要更多的数据才能正常工作。 16 太小了,对于 kmeans 来说,它可能太小了。我宁愿使用层次聚类。
标签: cluster-analysis data-science