Python 中的增强型 Dickey-Fuller 测试存在少量观察的问题答案

【问题标题】：Issue with Augmented Dickey-Fuller test in Python with small number of observationsPython 中的增强型 Dickey-Fuller 测试存在少量观察的问题
【发布时间】：2018-12-19 23:03:56
【问题描述】：

我想测试时间序列 (nobs = 23) 的平稳性，并从 statsmodels.tsa.stattools 实施 adfuller 测试。

以下是原始数据：

1995-01-01      3126.0
1996-01-01      3321.0
1997-01-01      3514.0
1998-01-01      3690.0
1999-01-01      3906.0
2000-01-01      4065.0
2001-01-01      4287.0
2002-01-01      4409.0
2003-01-01      4641.0
2004-01-01      4812.0
2005-01-01      4901.0
2006-01-01      5028.0
2007-01-01      5035.0
2008-01-01      5083.0
2009-01-01      5183.0
2010-01-01      5377.0
2011-01-01      5428.0
2012-01-01      5601.0
2013-01-01      5705.0
2014-01-01      5895.0
2015-01-01      6234.0
2016-01-01      6542.0
2017-01-01      6839.0

这是我正在使用的自定义 ADF 函数（感谢 blog）：

def test_stationarity(timeseries):
    print('Results of Dickey-Fuller Test:')
    dftest = adfuller(timeseries, autolag='AIC', maxlag = None)
    dfoutput = pd.Series(dftest[0:4], index=['ADF Statistic', 'p-value', '#Lags Used', 'Number of Obs Used'])
    for key, value in dftest[4].items():
        dfoutput['Critical Value (%s)' % key] = value
    print(dfoutput)

以下是对原始数据进行 ADF 测试的结果：

ADF Statistic           -0.126550
p-value                  0.946729
#Lags Used               8.000000
Number of Obs Used      14.000000
Critical Value (1%)     -4.012034
Critical Value (5%)     -3.104184
Critical Value (10%)    -2.690987

ADF 统计量大于所有临界值，并且 p 值 > alpha 0.05 表明该系列不是平稳的，因此我对数据进行了第一次差分。这是差分函数和 ADF 测试的结果：

def difference(dataset):
    diff = list()
    for i in range(1, len(dataset)):
        value = dataset[i] - dataset[i - 1]
        #print(value)
        diff.append(value)
    return pd.Series(diff)


ADF Statistic           -1.169799
p-value                  0.686451
#Lags Used               9.000000
Number of Obs Used      12.000000
Critical Value (1%)     -4.137829
Critical Value (5%)     -3.154972
Critical Value (10%)    -2.714477

ADF 统计量和 p 值都提高了，但序列仍然不是平稳的，所以我执行了第二次差分，结果如下：

ADF Statistic           -0.000000
p-value                  0.958532
#Lags Used               9.000000
Number of Obs Used      11.000000
Critical Value (1%)     -4.223238
Critical Value (5%)     -3.189369
Critical Value (10%)    -2.729839

在对数据进行第二次差分后，ADF 测试统计量变为 -0.0000（这令人费解，因为未舍入值的 print() 返回 -0.0 但无论哪种方式都意味着某处存在除零以外的一些有效数字）并且p 值现在比开始时更差。我也收到此警告：

RuntimeWarning: divide by zero encountered in double_scalars
  return np.dot(wresid, wresid) / self.df_resid.

对 p、d、q 值的网格搜索会返回一个 ARIMA(1, 1, 0) 模型，但我认为仍然需要二次差分，因为一次差分没有实现。

我怀疑奇怪的测试统计量和 p 值是由于 ADF 测试的默认设置（maxlag = 无）使用的样本量小和滞后数高。我知道当 maxlag 设置为 None 时，它使用公式 int(np.ceil(12. * np.power(nobs/100., 1/4.)))。

这样合适吗？如果没有，对于具有少量观察的数据集或经验法则是否有任何解决方法可以在 ADF 函数中手动设置 maxlag 值以避免看似错误的测试统计。我搜索了here、here 和here，但找不到解决方案。

我使用的是 statsmodels 0.8.0 版。

【问题讨论】：

嗨 DummieCoder - 我稍后会尽力为您提供帮助，但我建议您也在 quant stackexchange 上发帖：quant.stackexchange.com
谢谢拉斐尔！我假设您建议在 quant.stackexchange 上发帖，因为问题是关于时间序列的，这是财务预测的重要组成部分？我只是想确保在多个论坛上发布相同的问题是一种可接受的做法。如果有人在一个站点而不是另一个站点上回答问题，它将如何工作？

标签： python time-series statsmodels arima

【解决方案1】：

您看到的问题是最大滞后长度太长。首先，您的数据具有很强的趋势，因此您最初应该包含trend="ct"。这提高了测试统计量，但还不够。当您不同时，差异数据具有非零均值，因此趋势应为“c”。这仍然不拒绝，因此需要双重差异。可能需要双重差异，因为该系列是持久的，但也因为 ADF 测试的功效较低。

您应该将最大滞后设置为小于样本大小的平方根。这里发生的情况是使用了太多的滞后，这会减少有效样本量，从而使模型拟合接近完美。这会产生大量被选择的滞后。

from arch.unitroot import ADF
import pandas as pd
import numpy as np

y = [3126.0, 3321.0, 3514.0, 3690.0, 3906.0, 4065.0, 4287.0, 
     4409.0, 4641.0, 4812.0, 4901.0, 5028.0, 5035.0, 5083.0,
     5183.0, 5377.0, 5428.0, 5601.0, 5705.0, 5895.0, 6234.0,
     6542.0, 6839.0]
y = pd.Series(y)

max_lags = int(np.sqrt(y.shape[0]))
print(f"max_lags: {max_lags}")
ADF(y, trend="ct", max_lags=max_lags).summary()

输出

max_lags: 4

   Augmented Dickey-Fuller Results
=====================================
Test Statistic                 -2.009
P-value                         0.596
Lags                                2
-------------------------------------

Trend: Constant and Linear Time Trend
Critical Values: -4.50 (1%), -3.66 (5%), -3.27 (10%)
Null Hypothesis: The process contains a unit root.
Alternative Hypothesis: The process is weakly stationary.

接下来，区别，

ADF(y.diff().dropna(), trend="c", max_lags=max_lags).summary()

   Augmented Dickey-Fuller Results
=====================================
Test Statistic                 -2.224
P-value                         0.198
Lags                                0
-------------------------------------

Trend: Constant
Critical Values: -3.79 (1%), -3.01 (5%), -2.65 (10%)
Null Hypothesis: The process contains a unit root.
Alternative Hypothesis: The process is weakly stationary.

null 未被拒绝。再区分一次，这次是trend="n"，最终产生了一个非常平稳的序列。

ADF(y.diff().diff().dropna(), trend="n", max_lags=max_lags).summary()

   Augmented Dickey-Fuller Results
=====================================
Test Statistic                 -7.346
P-value                         0.000
Lags                                0
-------------------------------------

Trend: No Trend
Critical Values: -2.69 (1%), -1.96 (5%), -1.61 (10%)
Null Hypothesis: The process contains a unit root.
Alternative Hypothesis: The process is weakly stationary.

挑战在于，当时间序列很短时，不能完全依赖 ADF 测试。例如，这种差异看起来并不是特别不稳定。

【讨论】：