R：如何确定哪些变量与缺失的数据字段相关联答案

【问题标题】：R: How to determine which variables are associated with a missing data fieldR：如何确定哪些变量与缺失的数据字段相关联
【发布时间】：2021-05-21 00:19:56
【问题描述】：

我有一个数据集，我试图了解为什么一个特定变量 (Var1) 具有空白值。我有两个问题，我使用 R（并且是一名新手编码员）：

Var1 已完成 60%（以字母数字值输入的字段，但 40% 的条目只是空白）。如何编写代码来了解我的数据集的哪些其他变量（Var2、Var3、Var4...）与空白字段条目最相关？
我感兴趣的一个变量是商店（让我们将此变量称为商店），我可以运行代码来查看 Var1 的大部分空白条目是否仅归因于少数商店？这就是我所怀疑的，一些商店只是没有录制 Var1。

非常感谢您的帮助。

【问题讨论】：

我不确定我是否理解您的第一个问题，但请在第二个问题上查看我的回答

标签： r model-associations

【解决方案1】：

欢迎来到 R 和 Stack Overflow。首先，如果你想让人们帮助你，你需要举一个他们可以实际使用的例子。

你要做的第一件事就是给我们一些看起来像你的数据....听起来这样就可以了：

df <-
  data.frame(
    Store = c('A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'),
    Var1 = c(100, NA, 200, NA, NA, NA, 100, 150, 200),
    Var2 = c(30, 20, NA, NA, NA, 40, 20, 30, 50)
  )

关于你的第二个问题，我会按商店分组并计算这样的缺失值

library(tidyverse)
df %>% 
  group_by(Store) %>% 
  summarise(
    missing_count = sum(is.na(Var1)),
    total_count = n())

【讨论】：

非常感谢您的帮助（也感谢您的建议）

【解决方案2】：

假设您的数据如下所示：

dat
  store var1 var2 var3
1   one   NA    2    k
2   one   NA    3    w
3   two    2    3    s
4  five    3    4    f
5 other    2    5    d
6  four    2    3    s
7 three    2    3    f
8   ten    7    5    g
9   one   NA    3    w

找出受影响最大的varX：

colSums( is.na(dat[,2:4]) )
var1 var2 var3 
   3    0    0

您可以通过以下方式打印出受影响的商店：

dat[ is.na(dat$var1), "store" ]
[1] "one" "one" "one"

可以使用表格生成摘要：

table( dat[ is.na(dat$var1), "store" ] )

one 
  3

【讨论】：