【问题标题】:counting number of duplicates - alternative to plyr package计算重复的数量 - plyr 包的替代品
【发布时间】:2019-03-11 17:14:04
【问题描述】:

我有兴趣计算我的数据中重复的数量,所以我可以证明使用 kendall 的 tau 来计算我的变量之间的相关系数是合理的。以下命令正是我想要的:

ddply(df,.(a,b ),nrow) # plyr package

但是,问题出在plyr 包上。安装后,我在运行ggplot 命令时遇到错误。

这是我在会话中安装的软件包列表。我试过重启会话,没用。

packages(c("dplyr", "tidyr", "data.table", "ggplot2", "readxl", "magrittr", "tidyverse",
           "ggpubr", "forcats", "car", "PerformanceAnalytics", "mtcars", "Hmisc", "gplots",
           "nortest", "dunn.test", "psych", "FSA", "DescTools"))

我假设plyr 包以某种方式干扰了我的其他包。

我该如何解决这个问题

ddply 命令是否有替代解决方案?

【问题讨论】:

  • 也许你可以使用长度(数据) - 长度(唯一(数据))。如果数据是 df 而不是向量 nrows 而不是 length 可能会起作用

标签: r ggplot2 duplicates plyr


【解决方案1】:

这是一种使用基数 R 计算重复数的方法:

set.seed(111)
mydata <- sample(1:100, 100, 1)
(nDuplicates <- length(mydata) - length(unique(mydata)))

> (nDuplicates <- length(mydata) - length(unique(mydata)))
[1] 35

【讨论】:

    【解决方案2】:

    既然你已经加载了 dplyr,下面是一个以 mtcars 为例的 dplyr 方法:

    dups <- mtcars %>%
          group_by(cyl) %>%
          summarize(n()) %>%
          print
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-05-16
      • 1970-01-01
      • 2011-12-08
      • 1970-01-01
      • 1970-01-01
      • 2016-04-09
      • 2014-11-12
      • 1970-01-01
      相关资源
      最近更新 更多