【发布时间】:2014-06-23 10:54:04
【问题描述】:
我正在尝试在一个看起来像这个可重现示例的 data.table 中测试各种条件
set.seed(17)
year <- 1980 + rnbinom(10000,3,0.35)
event <- rep(LETTERS, length.out=10000)
z <- as.integer(runif(10000,min = 0, max = 10))
dt <- data.table(event,year,z)
setkey(dt, event,year)
dt <- dt[,sum(z), by=c("event","year")]
V1(来自最后一个命令)表示事件发生的计数。
所以数据表是一个有序数组,我需要在上面执行各种函数。以下是一些示例:
如何计算每个事件在前 10 年发生的滚动总和(或滚动平均值)?所以对于 A 1990,期望的输出是 1,452(1980 年到 1989 年之间)。对于 H 2012,输出为 11,因为在 2002 年和 2011 年之间只有 11 次出现(2002 年 3 次,2007 年 3 次,2010 年 5 次)。对于 A 1983,输出为
NA如何检查事件是否发生在前 15 年中的至少 12 年?所以对于A 1997,我们可以看到该事件发生在前15年中的12年以上(1982-1996,除1996年之外的每一年都发生)因此满足标准。但是,对于 A 2001,我们看到该事件仅发生在前 15 年中的 11 年(1986 - 2000),它不会发生在 1996、1998、1999 和 2000)标准不遇到了。此处所需的输出将是离散的 1(符合标准)或 0(不符合标准)
理想情况下,该代码不仅可以计算出现在data.table 中的years,还可以计算 1980 到 2013 年间缺失的那些 1 和 2。所以对于 K 2005,我们可以计算出 Q1 的结果为 25 (13 + 5 + 3 + 3 + 2)(感谢 @Arun 指出前一个错误)。对于第二季度,我们看到该事件在 1999、2000、2001、2003 和 2004 年没有发生,因此 “15 年中至少有 12 年”的标准没有得到满足。此外,事件-年份组合可能存在于 data.table 中,但 V1 的值为 0(参见第 18 行,A 2001)。理想情况下,此类零出现将被视为未出现(例如,通过删除 V1 为零的所有行)。
我知道发布两个问题并不常见,但我觉得它们属于同一类,并且确实与类似的问题相关。希望有人能提出一些建议。
非常感谢,
西蒙
【问题讨论】:
-
你是对的。似乎我的 set.seed() 出于某种原因没有工作。该死的很烦人。我将不得不更新我提到的每个值:(
-
@Arun 是的,这是正确的。不知道我从哪里得到 10,如果我忘记了第一个或最后一个,那甚至都不是一个选择。道歉
-
嗨,我期望 A, 1983 为 NA 的原因要简单得多。在 1983 年之前,我没有 10 年的数据。(我的完整数据集始于 1980 年。我打算用它来定义过去经常发生的事件。在实际结果中,我将面板减少到 1990 年 - 2006 年。之后的年份用于样本外预测,而之前的年份(1980-1989)用于创建此类历史频率。
-
关于例如
Z, 2012我理解这种困惑。我有一个实际包含 2013 年的数据集。但正如虚假数据所示,事件的发生率在接近尾声时急剧下降。所以简而言之,2012 年可能存在于我的数据中并需要一个值,但我不能追溯到 1980 年以后,因此 1989 年之前的每个滚动平均值都不能有 10 年之前的信息。 (根据调查结果,我会将其调整为 7 年或 8 年或 11 年)......希望这能澄清它并非常感谢您的努力!
标签: r data.table panel-data