【发布时间】:2017-12-22 23:05:12
【问题描述】:
我有篮球运动员的观察数据。每个 ID 代表一个玩家。
df <- data.frame(id = c("A", "B", "c"),
V1 = c(1, 3, 2),
V2 = c(1, 2, 2),
V3 = c(3, 1, NA))
df
id V1 V2 V3
1 A 1 1 3
2 B 3 2 1
3 c 2 2 NA
我想成对比较所有玩家并计算他们变量之间的相似性。
如果在不同的列中找到值并不重要。请注意,有些玩家在某些领域有NA。
期望的结果应该是这样的:
desired <- data.frame(id_x = c("A", "A", "B"),
id_y = c("B", "C", "C"),
similar = c(2, 0, 1))
desired
id_x id_y similar
1 A B 2
2 A C 0
3 B C 1
真实数据由数以万计的玩家组成,因此性能也很重要。
非常感谢任何指针。
【问题讨论】:
标签: r dataframe intersection