【问题标题】:Treating binary variables for first difference method to solve autocorrelation issue一阶差分法处理二元变量以解决自相关问题
【发布时间】:2018-01-28 19:55:46
【问题描述】:

我的面板数据存在自相关问题。 所以我决定使用一阶差分法来处理这个问题。

我的大部分自变量都是二进制的。 因此,如果我对此进行有限差分法, 我得到 -1、0 和 1,而不是之前的 0 或 1。

这样好吗?

此外,我的数据集时间流程如下,当我在同一天发生多个差异事件时,我不确定如何在这种情况下应用一阶差分法:

     Date   ID  X   Y   Z   L   M   A   B   C   D   E
 01/01/2017 A   0   1   0   0   0   0   1   0   0   7.8
 01/01/2017 A   0   1   0   0   0   1   0   0   1   6.5
 01/01/2017 B   0   0   0   0   1   1   0   0   1   6.5
 01/03/2017 A   0   1   0   0   0   0   0   0   0   7.8
 01/04/2017 C   0   0   1   0   0   1   0   0   0   6.5
 01/04/2017 C   0   0   0   0   0   0   1   0   0   7.3

我根据日期和ID再次排序,如下:

    Date    ID  X   Y   Z   L   M   A   B   C   D   E
 01/01/2017 A   0   1   0   0   0   0   1   0   0   7.8
 01/01/2017 A   0   1   0   0   0   1   0   0   1   6.5
 01/01/2017 B   0   0   0   0   1   1   0   0   1   6.5
 01/03/2017 A   0   1   0   0   0   0   0   0   0   7.8
 01/04/2017 C   0   0   1   0   0   1   0   0   0   6.5
 01/04/2017 C   0   0   0   0   0   0   1   0   0   7.3

此外,这个新的数据排序是否可以在我的面板回归中使用,并且还可以利用这个行序列来获得第一个区别?

【问题讨论】:

  • 我的意思是从技术上讲你不会得到-1、0或1吗?
  • 是的 -1 可以作为二进制变量吗?

标签: r time-series regression panel-data plm


【解决方案1】:

回归量可以是时不变的,也可以是时变的。对于某些估计器,特别是内差和一阶差估计器,仅识别时变回归器的系数(Cameron 和 Triverdi,微观计量经济学方法和应用。)。您的一些回归量似乎是时间不变的。

您处理的不是时间序列,而是面板或纵向数据。当然,您有重复的 ID 和日期。也就是说,您需要使用诸如 Arellano-Bond 和 Blundell-Bond 估计器等面板数据工具处理自相关,仅举几例。请参阅 R plm 包中的 pgmm 或 Stata 中的 xtdpdsysxtabond

如果您有多个变量来标识您的面板 ID,则可以使用以下方法对其进行聚合:R create ID within a group。如果您正在使用 Stata,您可以执行以下操作: egen id = group(sub_id_1 sub_id_2).

【讨论】:

  • 非常感谢。我现在使用带有 index = c("year","id") 的 plm 函数。如果我根据 ID 然后根据时间对数据进行排序并在每一行中取第一个差异,这仍然可以使用吗?所以会有ID和日期方面的排序。
  • 除非您使用 lm 功能,否则您不应自行区分。更合适的方法是在您的 plm 调用中指定模型变量:plm(..., model="fd")
  • 我希望如此,因为当我对我的公式进行 dwtest 时,我遇到了自相关问题。所以我首先对我的原始数据使用了第一差分法作为我的新原始数据。因此,我从原始数据中删除了第一年和第一个 ID 以匹配总数据计数。我可能会再次对此执行“fd”,但这并不重要,因为对我来说没有自相关问题是第一要务。此外,我的原始数据排列看起来还可以吗?
  • 很难说埃里​​克。此外,您的模型将变得更加难以解释。查看pgmm 函数,您可以在其中指定更高的滞后依赖性并更好地处理自相关。但是,您必须手动指定整个模型。如果您可以访问它,Stata 的 xtdpdsys 指定了一个基于这些方法的开创性论文的模型结构,这使得第一种方法更容易和教学。
  • 正如我之前所说,在处理时间序列时,这可能是一种有效的方法。很难说它对面板数据是正确的。此外,您正在“失去对参数的解释”。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2017-09-04
  • 1970-01-01
  • 2015-01-18
  • 2021-03-21
  • 2012-09-23
  • 2016-11-25
  • 2020-08-24
相关资源
最近更新 更多