【发布时间】:2021-01-08 05:46:35
【问题描述】:
我有一个类似这样的面板数据框:
df <- data.frame(
year = c(2012L, 2013L, 2014L, 2015L, 2016L, 2017L, 2012L, 2013L, 2014L, 2015L,
2016L, 2017L),
id = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L),
c = c(7.8L, 8.1L, 51L, 8.2L, 9L, 10L, 7.8L, 8.1L, 8.2L, 0.1L, 9.5L, 10L)
)
df
# year id c
# 1 2012 1 7.8
# 2 2013 1 8.1
# 3 2014 1 51.0
# 4 2015 1 8.2
# 5 2016 1 9.0
# 6 2017 1 10.0
# 7 2012 2 7.8
# 8 2013 2 8.1
# 9 2014 2 8.2
# 10 2015 2 0.1
# 11 2016 2 9.5
# 12 2017 2 10.0
我的数据中有某些拼写错误,其中数据中有明显的跳跃或下降,类似于 c 列中的 51 和 0.1。我希望能够识别每个组中的这些错误,并通过取错误前后的平均值来调整它们。我想将这些错误跳跃或下降定义为至少大于周围值的四或小于四分之一的任何值。
【问题讨论】:
标签: r data-cleaning outliers