【问题标题】:Clustering with data visualization使用数据可视化进行聚类
【发布时间】:2018-10-23 05:17:11
【问题描述】:

我的输入文件格式如下:

PERSON1 BUILDING1
PERSON2 BUILDING4
PERSON3 BUILDING4
PERSON5 BUILDING3
PERSON3 BUILDING2
PERSON3 BUILDING1
PERSON5 BUILDING6
PERSON4 BUILDING6
1000 more rows like this

每一行都应该写成“X 人参观了 Y 楼”

我只想拥有这样的集群:

Cluster 1 : Persons that visited only 1 building (the same building)
Cluster 2 : Persons that visited only 2 buildings (the same buildings, let's say building 1 & 2)
Cluster 3 : Persons that visited only 2 buildings (the same buildings, let's say building 3 & 4)
Cluster 4 : Persons that visited only 3 buildings (the same buildings)
etc..

最好的方法是什么?有没有理想的数据可视化软件可以做到这一点?我尝试了 Knime,但没有成功。

【问题讨论】:

  • 你也试过KNIME的网络挖矿扩展knime.com/book/network-visualization吗?
  • 是的,我尝试了网络挖矿扩展并浏览了 KNIME 的示例,但无法实现我想做的事情。
  • 您愿意接受 R 中的解决方案吗?

标签: matlab cluster-analysis data-visualization business-intelligence knime


【解决方案1】:

您需要适当地重新格式化您的数据。

根据访问的建筑物集使用 group_by 操作。

这比聚类要简单得多。

【讨论】:

    【解决方案2】:

    我第二个@Anony-Mousse 解决方案更类似于使用“分组依据”而不是进行聚类。因此,为了证明它有效,我构建了一个 simple code with knime 以获得预期的结果。然后,对于您提到的可视化部分,也许可以进行对应分析。

    此图表在 R 中实现(您可以使用 R 节点)并显示一个实体(比如蓝色访客)与另一个实体(比如红色建筑物)的相关程度,但当然,正确的图表取决于您的完整数据和意图。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-01-13
      • 1970-01-01
      • 2017-09-14
      • 2021-09-18
      • 1970-01-01
      • 2014-05-26
      • 2014-05-29
      • 1970-01-01
      相关资源
      最近更新 更多