如何在 R 中使用 mutate_at 计算加权平均值？答案

【问题标题】：How to calculate weighted mean using mutate_at in R?如何在 R 中使用 mutate_at 计算加权平均值？
【发布时间】：2020-10-29 16:24:19
【问题描述】：

我有一个数据框 (“df”)，其中包含我想估计的加权平均值、人口加权 (df$Population) 和通勤区分组 (df$cz) 的列数。

这是我想估计的加权平均值的列列表：

 vlist = c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")

这是我一直在使用的代码：

 df = df %>% group_by(cz) %>% mutate_at(vlist, weighted.mean(., df$Population))

我也试过了：

 df = df %>% group_by(cz) %>% mutate_at(vlist, function(x) weighted.mean(x, df$Population))

以及仅在 2 列上测试了以下代码：

 df = df %>% group_by(cz) %>% mutate_at(vars(Public_Welf_Total_Exp, Welf_Cash_Total_Exp), weighted.mean(., df$Population))

但是，即使我的任何变量中都没有 NA，我尝试过的所有操作都会出现以下错误：

 Error in weighted.mean.default(., df$Population) : 
   'x' and 'w' must have the same length

我知道我可以使用 lapply 进行以下估计，但我不知道如何使用 lapply 按另一个变量进行分组。如有任何建议，我将不胜感激！

【问题讨论】：

尝试在您的weighted.mean 通话中去掉Population 前面的df$。
当我尝试这样做时，我收到以下错误：“weighted.mean.default(., Population) 中的错误：找不到对象'Population'”

标签： r dplyr weighted-average

【解决方案1】：

这里有很多东西要解压...

可能您的意思是 summarise 而不是 mutate，因为使用 mutate 您只会复制每一行的结果。
mutate_at 和 summarise_at 是子种子，您应该改用 across。
您的代码无法正常工作的原因是因为您没有将函数编写为公式（您没有在开头添加~），而且您使用的是df$Population 而不是Population。当您编写 Population 时，summarise 知道您正在谈论的是 Population 列，此时该列与数据帧的其余部分一样分组。当您使用 df$Population 时，您正在调用原始数据框的列而不进行分组。这不仅是错误的，而且还会出现错误，因为您尝试平均的变量长度与df$Population 提供的权重长度不对应。

你可以这样做：

library(dplyr)

df %>%
   group_by(cz) %>% 
   summarise(across(vlist, weighted.mean, Population),
             .groups = "drop")

如果您确实需要使用summarise_at（并且可能您使用的是旧版本的dplyr [低于1.0.0]），那么您可以这样做：

df %>%
   group_by(cz) %>% 
   summarise_at(vlist, ~weighted.mean(., Population)) %>%
   ungroup()

我认为df 和vlist 如下：

vlist <- c("Public_Welf_Total_Exp", "Welf_Cash_Total_Exp", "Welf_Cash_Cash_Assist", "Welf_Ins_Total_Exp","Total_Educ_Direct_Exp", "Higher_Ed_Total_Exp", "Welf_NEC_Cap_Outlay","Welf_NEC_Direct_Expend", "Welf_NEC_Total_Expend", "Total_Educ_Assist___Sub", "Health_Total_Expend", "Total_Hospital_Total_Exp", "Welf_Vend_Pmts_Medical","Hosp_Other_Total_Exp","Unemp_Comp_Total_Exp", "Unemp_Comp_Cash___Sec", "Total_Unemp_Rev", "Hous___Com_Total_Exp", "Hous___Com_Construct")
df <- as.data.frame(matrix(rnorm(length(vlist) * 100), ncol = length(vlist)))
names(df) <- vlist
df$cz <- rep(letters[1:10], each = 10)
df$Population <- runif(100)

【讨论】：

谢谢您 - 解决方案有效，但更重要的是您的解释非常有帮助！
再追问：".groups = "drop"" 是做什么的？
在dplyr >= 1.0.0 中，您不需要在summarise statement 的末尾写ungroup。您可以直接在summarise 中指定如何处理现有组。通过写.groups = "drop"，您要求summarise 删除您使用group_by 创建的组。如果您不指定它，您将收到一条恼人的消息，如下所示：summarise() ungrouping output (override with .groups argument)