【发布时间】:2011-10-02 05:34:16
【问题描述】:
感谢joran 帮助我将previous question 中的数据分组,我想在R 中缩小数据框,以便对数据进行时间序列分析。
现在我想进一步从数据框中提取数据。数据框由 6 列组成。第 1 到 5 列各有离散的名称/值,例如地区、性别、年、月和年龄组。第六列是该特定组合的死亡人数。摘录如下所示:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
我是时间序列的新手,我想我需要这样做来分析数据:我需要提取较小的“时间序列”数据对象,这些数据对象是唯一的纵向数据。例如,从上面的数据框中,我想为每个地区、性别和年龄组提取像这样的更小的数据对象:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
去
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
我在 Excel 中尝试了一些操作,使用这些数据创建数据透视表,然后尝试提取信息字符串 - 但失败了。之后我在 R 中发现了reshape,但我要么不知道代码,要么不应该使用reshape 来执行此操作。
我什至不确定这是否是分析此横截面时间序列数据的正确/方法,即。如果实际上需要另一种格式来使用read.ts()、ts() 和arima() 等函数分析此数据。
我的最终目标是使用这些数据和 amelia2 包及其函数来估算 2007 年和 2008 年某些月份缺少 TotalDeaths 的情况,这些数据当然是缺失的。
任何帮助,如何做到这一点,以及如何解决这个问题的建议将不胜感激。
【问题讨论】:
-
@OSIOISO。你打算运行什么时间序列分析。看看
plm包。我相信如果您将所有内容都保存在一个数据中,那么运行分析会更容易。如果您提供有关您的分析的更多详细信息,我们中的一些人可能会提供帮助 -
@Ramnath,也许我错误地使用了“时间序列分析”。我基本上想使用 2003-2009 年的数据(其中 2007 年和 2008 年的某些月份缺少数据)来估算 2007 年和 2008 年缺少的月份。为此,我无法不使用任何 R 函数来查看TotalDeaths 的季节性和长期趋势。感谢您指出 plm - 我宁愿说数据是面板数据研究。我现在的问题是,如何使用这个“单一数据” - 并将其读入 R - 进行任何时间序列分析。希望这可以澄清。
-
通常(来自 Stackoverflow 上的所有其他时间序列问题)时间序列数据仅包含日期和数字序列,例如在 this answer 中 - 不在我的数据框中。
-
@OSIOISO。我仍然不明白你问题的最终目标。插补非常棘手,在时间序列中更是如此。估算缺失值是您的最终目标吗?还是您打算使用估算数据进行其他分析?我建议你在你的问题中澄清这一点。也许
stats.stackexchange可能是发布此内容的更好地方,如果您尝试执行的操作存在显着的统计偏差。 -
@OSIOISO。正如您正确指出的那样,您拥有的是面板数据。您可以将数据框中的额外变量视为解释变量,可以解释您尝试研究的时间序列中的一些系统变化。
标签: r statistics time-series