【发布时间】:2018-07-31 22:34:44
【问题描述】:
我有一个包含十列数据的.csv 文件。每列内都会有重复项,但列之间应该有重复项。如何验证?
我希望在 SPSS 或 R 中执行此功能。
【问题讨论】:
-
您可以尝试添加一个带有一些虚构值的数据示例 sn-p 吗?我不确定我理解你所说的列内和列之间重复是什么意思。
标签: r duplicates spss
我有一个包含十列数据的.csv 文件。每列内都会有重复项,但列之间应该有重复项。如何验证?
我希望在 SPSS 或 R 中执行此功能。
【问题讨论】:
标签: r duplicates spss
我们检查这些列的 dputs 是否存在重复:
df <- data.frame(a=1:3,b=4:6,c=1:3)
df
# a b c
# 1 1 4 1
# 2 2 5 2
# 3 3 6 3
col_dputs <- sapply(df,function(x) capture.output(dput(x)))
# only redundant columns
names(df)[duplicated(col_dputs)]
#[1] "c"
# all duplicated columns
names(df)[duplicated(col_dputs) | duplicated(col_dputs,fromLast = TRUE)]
# [1] "a" "c"
【讨论】: