【发布时间】:2021-01-11 04:53:27
【问题描述】:
假设我有一个包含 10 个 .csv 文件的文件夹,它们看起来像:
> df1
apple Mary car
a 1 1 1
b 2 2 2
c 3 3 3
d 4 4 4
e 5 5 5
> df2
apple Mary car
a 1 1 1
b 2 2 2
p 4 3 2
d 4 4 4
e 5 5 5
> df3
phone Jognny car
a 1 1 1
b 2 2 2
c 3 3 3
p 4 3 4
e 5 5 5
i 1 2 3
我想知道 dfs 有多“相似”。例如,df1 和 df2 在 colnames 中有 100% 的匹配,但在 rownames 中只有 80% 的匹配。因此,两个数据帧的匹配率约为 87%(13/15 数据内容元素)。
df2 和 df3 只有 33% 的 colnames 匹配...等然后,df1 和 df3...等
它类似于cor(),但有不同维度和列名的数据框......等等
生成数据的代码:
> dput(df1)
structure(list(apple = 1:5, Mary = 1:5, car = 1:5), class = "data.frame", row.names = c("a",
"b", "c", "d", "e"))
> dput(df2)
structure(list(apple = c(1, 2, 4, 4, 5), Mary = c(1, 2, 3, 4,
5), car = c(1, 2, 2, 4, 5)), row.names = c("a", "b", "p", "d",
"e"), class = "data.frame")
> dput(df3)
structure(list(phone = c(1, 2, 3, 4, 5, 1), Jognny = c(1, 2,
3, 3, 5, 2), car = c(1, 2, 3, 4, 5, 3)), row.names = c("a", "b",
"c", "p", "e", "i"), class = "data.frame")
【问题讨论】:
标签: r