【发布时间】:2018-11-05 11:51:03
【问题描述】:
这是 pastebin 中的完整数据集:https://pastebin.com/xpGMsSSf
pastebin 的快速快照:
`"V1","V2","N"
16,17,0.065532029
16,30,0.070163826
17,30,0.053089888
29,30,0.068024596`
数据预处理:我从客户订单和每个订单中的商品列表开始。我计算了同一订单中每对商品的出现次数。然后,我使用“Jackkard Index”来计算项目之间的相似度。现在我在你可以在数据集中看到的位置。
数据集:数据集包含V1和V2中的材料编号。 N = 项目之间的相似性指数。数据集仅包含以相同顺序一起出现的一对项目。因此,有很多对不在数据集中。
我的目标:我有 696 个唯一的项目编号,范围从 1 到 696。我想要一个 N 的 696x696 矩阵作为值。数据集中“缺失对”的值应等于 0 = 表示两项之间没有相似性。
我要将它用于什么?我想根据 696 个项目在同一订单中的出现次数对它们进行聚类。
【问题讨论】:
-
在将变量
V1和V2设置为因子后(将levels设置为你想要的,即1:696),你可以使用xtabs( N ~ V1 + V2, mat, sparse=TRUE -
你能再解释一下吗?我是一个完全的初学者。如何将级别设置为 1:696?
标签: r cluster-analysis distance correlation similarity