使用数据可视化进行聚类答案

【问题标题】：Clustering with data visualization使用数据可视化进行聚类
【发布时间】：2018-10-23 05:17:11
【问题描述】：

我的输入文件格式如下：

PERSON1 BUILDING1
PERSON2 BUILDING4
PERSON3 BUILDING4
PERSON5 BUILDING3
PERSON3 BUILDING2
PERSON3 BUILDING1
PERSON5 BUILDING6
PERSON4 BUILDING6
1000 more rows like this

每一行都应该写成“X 人参观了 Y 楼”

我只想拥有这样的集群：

Cluster 1 : Persons that visited only 1 building (the same building)
Cluster 2 : Persons that visited only 2 buildings (the same buildings, let's say building 1 & 2)
Cluster 3 : Persons that visited only 2 buildings (the same buildings, let's say building 3 & 4)
Cluster 4 : Persons that visited only 3 buildings (the same buildings)
etc..

最好的方法是什么？有没有理想的数据可视化软件可以做到这一点？我尝试了 Knime，但没有成功。

【问题讨论】：

你也试过KNIME的网络挖矿扩展knime.com/book/network-visualization吗？
是的，我尝试了网络挖矿扩展并浏览了 KNIME 的示例，但无法实现我想做的事情。
您愿意接受 R 中的解决方案吗？

标签： matlab cluster-analysis data-visualization business-intelligence knime

【解决方案1】：

您需要适当地重新格式化您的数据。

根据访问的建筑物集使用 group_by 操作。

这比聚类要简单得多。

【讨论】：

【解决方案2】：

我第二个@Anony-Mousse 解决方案更类似于使用“分组依据”而不是进行聚类。因此，为了证明它有效，我构建了一个 simple code with knime 以获得预期的结果。然后，对于您提到的可视化部分，也许可以进行对应分析。

此图表在 R 中实现（您可以使用 R 节点）并显示一个实体（比如蓝色访客）与另一个实体（比如红色建筑物）的相关程度，但当然，正确的图表取决于您的完整数据和意图。

【讨论】：