一阶差分法处理二元变量以解决自相关问题答案

【问题标题】：Treating binary variables for first difference method to solve autocorrelation issue一阶差分法处理二元变量以解决自相关问题
【发布时间】：2018-01-28 19:55:46
【问题描述】：

我的面板数据存在自相关问题。所以我决定使用一阶差分法来处理这个问题。

我的大部分自变量都是二进制的。因此，如果我对此进行有限差分法，我得到 -1、0 和 1，而不是之前的 0 或 1。

这样好吗？

此外，我的数据集时间流程如下，当我在同一天发生多个差异事件时，我不确定如何在这种情况下应用一阶差分法：

     Date   ID  X   Y   Z   L   M   A   B   C   D   E
 01/01/2017 A   0   1   0   0   0   0   1   0   0   7.8
 01/01/2017 A   0   1   0   0   0   1   0   0   1   6.5
 01/01/2017 B   0   0   0   0   1   1   0   0   1   6.5
 01/03/2017 A   0   1   0   0   0   0   0   0   0   7.8
 01/04/2017 C   0   0   1   0   0   1   0   0   0   6.5
 01/04/2017 C   0   0   0   0   0   0   1   0   0   7.3

我根据日期和ID再次排序，如下：

    Date    ID  X   Y   Z   L   M   A   B   C   D   E
 01/01/2017 A   0   1   0   0   0   0   1   0   0   7.8
 01/01/2017 A   0   1   0   0   0   1   0   0   1   6.5
 01/01/2017 B   0   0   0   0   1   1   0   0   1   6.5
 01/03/2017 A   0   1   0   0   0   0   0   0   0   7.8
 01/04/2017 C   0   0   1   0   0   1   0   0   0   6.5
 01/04/2017 C   0   0   0   0   0   0   1   0   0   7.3

此外，这个新的数据排序是否可以在我的面板回归中使用，并且还可以利用这个行序列来获得第一个区别？

【问题讨论】：

我的意思是从技术上讲你不会得到-1、0或1吗？
是的 -1 可以作为二进制变量吗？

标签： r time-series regression panel-data plm

【解决方案1】：

回归量可以是时不变的，也可以是时变的。对于某些估计器，特别是内差和一阶差估计器，仅识别时变回归器的系数（Cameron 和 Triverdi，微观计量经济学方法和应用。）。您的一些回归量似乎是时间不变的。

您处理的不是时间序列，而是面板或纵向数据。当然，您有重复的 ID 和日期。也就是说，您需要使用诸如 Arellano-Bond 和 Blundell-Bond 估计器等面板数据工具处理自相关，仅举几例。请参阅 R plm 包中的 pgmm 或 Stata 中的 xtdpdsys 或 xtabond。

如果您有多个变量来标识您的面板 ID，则可以使用以下方法对其进行聚合：R create ID within a group。如果您正在使用 Stata，您可以执行以下操作： egen id = group(sub_id_1 sub_id_2).

【讨论】：

非常感谢。我现在使用带有 index = c("year","id") 的 plm 函数。如果我根据 ID 然后根据时间对数据进行排序并在每一行中取第一个差异，这仍然可以使用吗？所以会有ID和日期方面的排序。
除非您使用 lm 功能，否则您不应自行区分。更合适的方法是在您的 plm 调用中指定模型变量：plm(..., model="fd")。
我希望如此，因为当我对我的公式进行 dwtest 时，我遇到了自相关问题。所以我首先对我的原始数据使用了第一差分法作为我的新原始数据。因此，我从原始数据中删除了第一年和第一个 ID 以匹配总数据计数。我可能会再次对此执行“fd”，但这并不重要，因为对我来说没有自相关问题是第一要务。此外，我的原始数据排列看起来还可以吗？
很难说埃里克。此外，您的模型将变得更加难以解释。查看pgmm 函数，您可以在其中指定更高的滞后依赖性并更好地处理自相关。但是，您必须手动指定整个模型。如果您可以访问它，Stata 的 xtdpdsys 指定了一个基于这些方法的开创性论文的模型结构，这使得第一种方法更容易和教学。
正如我之前所说，在处理时间序列时，这可能是一种有效的方法。很难说它对面板数据是正确的。此外，您正在“失去对参数的解释”。