【发布时间】:2015-01-28 16:26:08
【问题描述】:
我目前有一个 csv,它作为数据框加载到 R 中,包含 2500 个观察值和 49 列。数据如下所示:
Donor Year Amount
World Bank 2006 94,000
World Bank 2007
World Bank 80,000
我正在尝试按捐赠者(这是一列)对 csv 中所有缺失值进行计数,然后将其除以总观察值以获得每个捐赠者缺失数据的比率。
对于上面的例子,它有 2 个缺失字段和 9 个总字段,数学看起来像这样:
2NA/9 个字段。
donor_empty_iati<- group_by(chad_iati, reporting.org)
summary_donor_empty_iati <- summarise(donor_empty_iati, count_empty = length(which(n==""|n==" ")), total_by_donor = count_empty/nrow*49)
order_summary_donor_empty_iati <- summary_donor_empty_iati[order(-summary_donor_empty_iati$total_by_donor),]
使用汇总或函数快速完成此操作的任何帮助都会非常有帮助。
【问题讨论】:
-
但是,这些 2NA 值来自两列。
-
正确,因此它正在查找列中每个值的总 NA 值,因此在示例中每个世界银行的总 NA 值。