计算重复的数量 - plyr 包的替代品答案

【问题标题】：counting number of duplicates - alternative to plyr package计算重复的数量 - plyr 包的替代品
【发布时间】：2019-03-11 17:14:04
【问题描述】：

我有兴趣计算我的数据中重复的数量，所以我可以证明使用 kendall 的 tau 来计算我的变量之间的相关系数是合理的。以下命令正是我想要的：

ddply(df,.(a,b ),nrow) # plyr package

但是，问题出在plyr 包上。安装后，我在运行ggplot 命令时遇到错误。

这是我在会话中安装的软件包列表。我试过重启会话，没用。

packages(c("dplyr", "tidyr", "data.table", "ggplot2", "readxl", "magrittr", "tidyverse",
           "ggpubr", "forcats", "car", "PerformanceAnalytics", "mtcars", "Hmisc", "gplots",
           "nortest", "dunn.test", "psych", "FSA", "DescTools"))

我假设plyr 包以某种方式干扰了我的其他包。

我该如何解决这个问题？

或

ddply 命令是否有替代解决方案？

【问题讨论】：

也许你可以使用长度（数据） - 长度（唯一（数据））。如果数据是 df 而不是向量 nrows 而不是 length 可能会起作用

标签： r ggplot2 duplicates plyr

【解决方案1】：

这是一种使用基数 R 计算重复数的方法：

set.seed(111)
mydata <- sample(1:100, 100, 1)
(nDuplicates <- length(mydata) - length(unique(mydata)))

> (nDuplicates <- length(mydata) - length(unique(mydata)))
[1] 35

【讨论】：

【解决方案2】：

既然你已经加载了 dplyr，下面是一个以 mtcars 为例的 dplyr 方法：

dups <- mtcars %>%
      group_by(cyl) %>%
      summarize(n()) %>%
      print

【讨论】：