【问题标题】:Panel Data Descriptives面板数据描述
【发布时间】:2020-05-25 21:38:02
【问题描述】:

非常简单的问题,但不知何故我被卡住了。 我有用户日常任务的面板数据。现在我想知道一个用户平均完成了多少任务,但不知何故我不知道怎么做。以及一个用户平均每项任务需要多长时间。另外,如果可能的话,我想绘制这些数据。 我做了正常的描述,但我觉得这不是我所需要的。 数据看起来有点像这样 用户 (1, 1, 1, 2, 2,3) 任务(1, 1,2, 3,4, 5) 天(1、2、1、1、2、1) 任务创建 (1,1,1,4,4,3) 截止日期(5,5,5,9,9,4)

      id_task id_user day completion_yesno day_created has_deadline deadline created_before active overdue completed_before
16416   37033    5272  61                0          61            1      172              0      0       0                0
16417   37033    5272  62                0          61            1      172              2      2       0                0
16418   37033    5272  63                0          61            1      172              2      2       0                0
16419   37033    5272  64                0          61            1      172              2      2       0                0
16420   37033    5272  65                0          61            1      172              2      2       0                0
16421   37033    5272  66                0          61            1      172              2      2       0                0
16422   37033    5272  67                0          61            1      172              2      2       0                0
16423   37033    5272  68                0          61            1      172              2      2       0                0
16424   37033    5272  69                0          61            1      172              2      2       0                0
16425   37033    5272  70                0          61            1      172              2      2       0                0
16426   37033    5272  71                0          61            1      172              2      2       0                0
16427   37033    5272  72                0          61            1      172              2      2       0                0
16428   37033    5272  73                0          61            1      172              2      2       0                0
16429   37033    5272  74                0          61            1      172              2      2       0                0
16430   37033    5272  75                0          61            1      172              2      2       0                0
16431   37033    5272  76                0          61            1      172              2      2       0                0
16432   37033    5272  77                0          61            1      172              2      2       0                0
16433   37033    5272  78                0          61            1      172              2      2       0                0
16434   37033    5272  79                0          61            1      172              2      2       0                0
16435   37033    5272  80                0          61            1      172              2      2       0                0

在这种情况下,一个用户平均会处理 2 个任务,但我只是通过计数才发现的。

【问题讨论】:

  • 这是一个data.frame吗?你能显示预期的
  • @akrun 是的,它是一个数据框。预期是什么意思?
  • 我的意思是预期的输出
  • 这是一个data.frame吗?能否请您使用dput,以便结构清晰
  • 只需使用head(yourdata, 20) 和基于此的预期输出

标签: r variables plot panel


【解决方案1】:

仅保留有关用户、任务和已完成的信息。删除重复的行,然后按用户分组并计算每个用户完成的任务数:

df_by_user <- df %>% 
    select(id_user, id_task, completion_yesno) %>% 
    unique() %>% 
    group_by(id_user) %>%
    summarise(n = sum(completion_yesno))

然后计算平均值:

 mean(df_by_user$n)

【讨论】:

  • 您能解释一下输出的确切含义吗?每个用户的平均任务太高了,因为每个任务都会发生多次。但是,我只对一项独特任务发生的频率感兴趣
  • 我明白了,那么你可能想先 group_by(id_user, completion_yesno),然后计算总和。
猜你喜欢
  • 2012-10-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-06-05
  • 2012-10-12
  • 1970-01-01
  • 2019-06-16
  • 2011-11-06
相关资源
最近更新 更多