【问题标题】:R Show duplicates in dataframeR在数据框中显示重复项
【发布时间】:2019-02-18 00:31:15
【问题描述】:

我正在尝试“突出显示”我的数据框中的重复项。我找到了有关删除重复项或创建仅包含重复项的新数据集的各种教程。但由于我预计在我的数据工作的早期阶段会出现问题,我(现在)只想看看哪些观察结果似乎是重复的,以便了解出了什么问题。我希望 R 创建列 c

a <- c("C","A","A","B","A","C","C")
b <- c(1,1,2,1,2,1,2)
c <- c(2,1,2,1,2,2,1)
df <-data.frame(a,b,c)

【问题讨论】:

  • 您要检测重复的依据是什么?对于 a 列、b 列还是两者都有?
  • 我认为您在第 5 行中的 c 值是错误的,因为 A - 2 组合出现了两次。
  • @AntoniosK:是的,你当然是对的!

标签: r sorting duplicates


【解决方案1】:
a <- c("C","A","A","B","A","C","C")
b <- c(1,1,2,1,2,1,2)
df <-data.frame(a,b)

library(dplyr)

df %>%
  group_by(a,b) %>%    # for each combination of a and b
  mutate(c = n()) %>%  # count times they appear
  ungroup()

# # A tibble: 7 x 3
#   a         b     c
#   <fct> <dbl> <int>
# 1 C         1     2
# 2 A         1     1
# 3 A         2     2
# 4 B         1     1
# 5 A         2     2
# 6 C         1     2
# 7 C         2     1

【讨论】:

    猜你喜欢
    • 2017-09-16
    • 2017-03-18
    • 2010-12-04
    • 2018-07-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-08
    • 1970-01-01
    相关资源
    最近更新 更多