【发布时间】:2019-11-26 06:40:17
【问题描述】:
我有两个数据框,一个包含原始数据(和许多 NA),另一个包含不同间隔的原始数据的平均值。
我想用这些间隔的手段替换 NA,同时保留非 NA。
我在“估算丢失的数据 r”或“替换丢失的数据 r”上搜索了很多,但还没有找到任何似乎适合的解决方案,它们似乎都用 0:s 替换数据,或者使用这种分配的复杂方法的一种方法,例如使用 MICE 包。
代码示例: 这是第一个 DF 的头部,带有原始数据。如您所见,第一天他们都是NA。
steps date interval
1 NA 2012-10-01 0
2 NA 2012-10-01 5
3 NA 2012-10-01 10
4 NA 2012-10-01 15
5 NA 2012-10-01 20
6 NA 2012-10-01 25
...
第二个数据帧头包含每个间隔的平均步数,如下所示:
steps interval
1 1.72 0
2 0.340 5
3 0.132 10
4 0.151 15
5 0.0755 20
6 2.09 25
...
现在,我正在寻找的是能够用相关间隔的平均步长填充 NA,所以它看起来像这样:
steps date interval
1 1.72 2012-10-01 0
2 0.340 2012-10-01 5
3 0.132 2012-10-01 10
4 0.151 2012-10-01 15
5 0.0755 2012-10-01 20
6 2.09 2012-10-01 25
...
任何提示或我错过的资源链接?由于这是一个课程作业,我最想学习,任何不为我做作业的帮助将不胜感激! =)
编辑:另外,由于这是我在 Stack Overflow 上的第一个问题,任何关于如何改进我的问题制作的 cmet 也很感激!
【问题讨论】:
-
欢迎来到 SO,这可能是一个涉及
plyr包的rbind.fill()或类似full_join(df1,df2,by="interval")%>%mutate(.,steps=coalesce(steps.x,steps.y)的解决方案,使用dplyr或简单地使用来自 base R 的mergeif "步骤”在 df1 中始终为 NA。为了改进您的问题,请使用dput(df1)提供可重现的数据框,并说明您的尝试。
标签: r na missing-data imputation