【问题标题】:How do I find duplicates between variables?如何找到变量之间的重复项?
【发布时间】:2018-07-31 22:34:44
【问题描述】:

我有一个包含十列数据的.csv 文件。每列都会有重复项,但列之间应该有重复项。如何验证?

我希望在 SPSS 或 R 中执行此功能。

【问题讨论】:

  • 您可以尝试添加一个带有一些虚构值的数据示例 sn-p 吗?我不确定我理解你所说的列内和列之间重复是什么意思。

标签: r duplicates spss


【解决方案1】:

我们检查这些列的 dputs 是否存在重复:

df <- data.frame(a=1:3,b=4:6,c=1:3)
df
#   a b c
# 1 1 4 1
# 2 2 5 2
# 3 3 6 3

col_dputs <- sapply(df,function(x) capture.output(dput(x)))

# only redundant columns
names(df)[duplicated(col_dputs)]
#[1] "c"

# all duplicated columns
names(df)[duplicated(col_dputs) | duplicated(col_dputs,fromLast = TRUE)]
# [1] "a" "c"

【讨论】:

    猜你喜欢
    • 2013-02-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-29
    • 2016-03-22
    相关资源
    最近更新 更多