【问题标题】:Grouped table of percentiles [duplicate]百分位数分组表[重复]
【发布时间】:2020-05-11 23:31:24
【问题描述】:

我需要计算哪个值代表组内的 5%、34%、50%、67% 和 95%(在单独的列中)。预期的输出是

    5%   34%  50%  67% 95%
A   4     6    8    12  30
B   1     2    3    4    10

每个组的整数值。

下面的代码显示了我到目前为止的内容(但使用生成的数据):

library(dplyr)
library(tidyr)
data.frame(group=sample(LETTERS[1:5],100,TRUE),values=rnorm(100)) %>%
      group_by(group) %>%
      mutate(perc_int=findInterval(values, 
                    quantile(values, probs=c(0.05,0.34,0.5,0.67,0.95)))) %>%
      pivot_wider(names_from = perc_int,values_from = values)

使用这个例子我得到了六列,我不知道为什么。

此外,列填充的是向量而不是单个值。如何在值向量中只获得一个表示百分位数的值?

【问题讨论】:

    标签: r aggregate-functions percentile


    【解决方案1】:

    您可以在列表中获取quantile 数据,然后使用unnest_wider 拥有单独的列。

    library(dplyr)
    set.seed(123)
    
    data.frame(group=sample(LETTERS[1:5],100,TRUE),values=rnorm(100)) %>%
       group_by(group) %>%
       summarise(perc_int= list(quantile(values, probs=c(0.05,0.34,0.5,0.67,0.95)))) %>%
       tidyr::unnest_wider(perc_int)
    
    # A tibble: 5 x 6
    #  group   `5%`  `34%`   `50%` `67%` `95%`
    #  <fct>  <dbl>  <dbl>   <dbl> <dbl> <dbl>
    #1  A     -2.40  -0.580 -0.0887 0.371  1.38
    #2  B     -1.83  -0.200  0.0848 0.546  1.78
    #3  C     -0.947 -0.148  0.184  0.789  1.81
    #4  D     -0.992 -0.275 -0.0193 0.274  1.82
    #5  E     -1.65  -0.457 -0.0422 0.540  1.66
    

    【讨论】:

    • 太棒了。正是我需要的。
    【解决方案2】:

    以下应该有效。

    library(dplyr)
    data.frame(group=sample(LETTERS[1:5],100,TRUE),values=rnorm(100)) %>%
          group_by(group) %>% summarise(`5 %` = quantile(values,0.05),
                                        `34 %` = quantile(values,0.34), 
                                        `50 %` = quantile(values,0.5), 
                                        `67 %` = quantile(values,0.67), 
                                        `95 %` = quantile(values,0.95))
    

    【讨论】:

    • 是的,这可行,但下面的解决方案更优雅。
    猜你喜欢
    • 1970-01-01
    • 2017-08-30
    • 2021-02-26
    • 1970-01-01
    • 2020-10-07
    • 1970-01-01
    • 2021-01-06
    • 1970-01-01
    • 2020-04-28
    相关资源
    最近更新 更多