【问题标题】:Should year variable be factor or numeric in panel data in R?年份变量应该是 R 面板数据中的因子还是数字?
【发布时间】:2014-12-22 05:48:44
【问题描述】:

我有一个面板数据集,其中每两年对 2004 年至 2010 年的医院进行跟踪。数据在 Stata 中,但我把它带到 R 中。最初变量 year (2004, 2006, 2008, 2010) 和 t (1=2004, 2=2006 等等) 是整数,但后来我转换它们分为以下几个因素:

data$year <- factor(data$year)

对于 t 时间变量也是如此。

但我很困惑,我的问题是是否将 yeart 作为整数或数字变量或将其转换为面板数据的因子以及上述命令是否是转换为因素?

【问题讨论】:

  • 一般来说,如果是分类变量,应该是一个因素。
  • 如果这是面板(纵向)数据,那么yeart 都是代表时间流逝的数字变量,所以我认为它们应该保持数字,而不是因子,特别是如果您通过重复测量回归模型运行数据。
  • 可以使用包plm的函数pdata.frame定义面板。这会将时间变量定义为面板的两个指标之一,另一个是观察对象,并将其视为一个因素。详情在这里cran.r-project.org/web/packages/plm/plm.pdf

标签: r panel-data


【解决方案1】:

year 视为分类变量将计算每个单独年份的影响 - 即在给定年份平均对目标变量的影响。另一方面,包括t 作为数值变量表示平均两年后会发生什么。鉴于只有 4 个时间段,第一种方法似乎更合理,但它确实取决于我们分析的目标。

命令应该是

data$year &lt;- as.factor(data$year).

另外,请确保您只包含 yeart 之一,因为包含两者可能会搞砸解释。

【讨论】:

  • 抱歉回复晚了,谢谢。最后,由于它是一个简短的面板,我们将年份视为一个分类变量。
猜你喜欢
  • 1970-01-01
  • 2016-07-01
  • 2014-01-23
  • 1970-01-01
  • 1970-01-01
  • 2011-02-17
  • 1970-01-01
  • 2020-09-04
  • 2022-12-29
相关资源
最近更新 更多