【问题标题】:R: How to determine which variables are associated with a missing data fieldR:如何确定哪些变量与缺失的数据字段相关联
【发布时间】:2021-05-21 00:19:56
【问题描述】:

我有一个数据集,我试图了解为什么一个特定变量 (Var1) 具有空白值。 我有两个问题,我使用 R(并且是一名新手编码员):

  1. Var1 已完成 60%(以字母数字值输入的字段,但 40% 的条目只是空白)。如何编写代码来了解我的数据集的哪些其他变量(Var2、Var3、Var4...)与空白字段条目最相关?

  2. 我感兴趣的一个变量是商店(让我们将此变量称为商店),我可以运行代码来查看 Var1 的大部分空白条目是否仅归因于少数商店?这就是我所怀疑的,一些商店只是没有录制 Var1。

非常感谢您的帮助。

【问题讨论】:

  • 我不确定我是否理解您的第一个问题,但请在第二个问题上查看我的回答

标签: r model-associations


【解决方案1】:

欢迎来到 R 和 Stack Overflow。首先,如果你想让人们帮助你,你需要举一个他们可以实际使用的例子。

你要做的第一件事就是给我们一些看起来像你的数据....听起来这样就可以了:

df <-
  data.frame(
    Store = c('A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'),
    Var1 = c(100, NA, 200, NA, NA, NA, 100, 150, 200),
    Var2 = c(30, 20, NA, NA, NA, 40, 20, 30, 50)
  )

关于你的第二个问题,我会按商店分组并计算这样的缺失值

library(tidyverse)
df %>% 
  group_by(Store) %>% 
  summarise(
    missing_count = sum(is.na(Var1)),
    total_count = n())

【讨论】:

  • 非常感谢您的帮助(也感谢您的建议)
【解决方案2】:

假设您的数据如下所示:

dat
  store var1 var2 var3
1   one   NA    2    k
2   one   NA    3    w
3   two    2    3    s
4  five    3    4    f
5 other    2    5    d
6  four    2    3    s
7 three    2    3    f
8   ten    7    5    g
9   one   NA    3    w

找出受影响最大的varX

colSums( is.na(dat[,2:4]) )
var1 var2 var3 
   3    0    0

您可以通过以下方式打印出受影响的商店

dat[ is.na(dat$var1), "store" ]
[1] "one" "one" "one"

可以使用表格生成摘要:

table( dat[ is.na(dat$var1), "store" ] )

one 
  3

【讨论】:

    猜你喜欢
    • 2022-12-31
    • 2012-01-21
    • 2013-01-12
    • 1970-01-01
    • 2020-03-15
    • 1970-01-01
    • 2014-07-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多