【发布时间】:2018-12-19 23:03:56
【问题描述】:
我想测试时间序列 (nobs = 23) 的平稳性,并从 statsmodels.tsa.stattools 实施 adfuller 测试。
以下是原始数据:
1995-01-01 3126.0
1996-01-01 3321.0
1997-01-01 3514.0
1998-01-01 3690.0
1999-01-01 3906.0
2000-01-01 4065.0
2001-01-01 4287.0
2002-01-01 4409.0
2003-01-01 4641.0
2004-01-01 4812.0
2005-01-01 4901.0
2006-01-01 5028.0
2007-01-01 5035.0
2008-01-01 5083.0
2009-01-01 5183.0
2010-01-01 5377.0
2011-01-01 5428.0
2012-01-01 5601.0
2013-01-01 5705.0
2014-01-01 5895.0
2015-01-01 6234.0
2016-01-01 6542.0
2017-01-01 6839.0
这是我正在使用的自定义 ADF 函数(感谢 blog):
def test_stationarity(timeseries):
print('Results of Dickey-Fuller Test:')
dftest = adfuller(timeseries, autolag='AIC', maxlag = None)
dfoutput = pd.Series(dftest[0:4], index=['ADF Statistic', 'p-value', '#Lags Used', 'Number of Obs Used'])
for key, value in dftest[4].items():
dfoutput['Critical Value (%s)' % key] = value
print(dfoutput)
以下是对原始数据进行 ADF 测试的结果:
ADF Statistic -0.126550
p-value 0.946729
#Lags Used 8.000000
Number of Obs Used 14.000000
Critical Value (1%) -4.012034
Critical Value (5%) -3.104184
Critical Value (10%) -2.690987
ADF 统计量大于所有临界值,并且 p 值 > alpha 0.05 表明该系列不是平稳的,因此我对数据进行了第一次差分。这是差分函数和 ADF 测试的结果:
def difference(dataset):
diff = list()
for i in range(1, len(dataset)):
value = dataset[i] - dataset[i - 1]
#print(value)
diff.append(value)
return pd.Series(diff)
ADF Statistic -1.169799
p-value 0.686451
#Lags Used 9.000000
Number of Obs Used 12.000000
Critical Value (1%) -4.137829
Critical Value (5%) -3.154972
Critical Value (10%) -2.714477
ADF 统计量和 p 值都提高了,但序列仍然不是平稳的,所以我执行了第二次差分,结果如下:
ADF Statistic -0.000000
p-value 0.958532
#Lags Used 9.000000
Number of Obs Used 11.000000
Critical Value (1%) -4.223238
Critical Value (5%) -3.189369
Critical Value (10%) -2.729839
在对数据进行第二次差分后,ADF 测试统计量变为 -0.0000(这令人费解,因为未舍入值的 print() 返回 -0.0 但无论哪种方式都意味着某处存在除零以外的一些有效数字)并且p 值现在比开始时更差。我也收到此警告:
RuntimeWarning: divide by zero encountered in double_scalars
return np.dot(wresid, wresid) / self.df_resid.
对 p、d、q 值的网格搜索会返回一个 ARIMA(1, 1, 0) 模型,但我认为仍然需要二次差分,因为一次差分没有实现。
我怀疑奇怪的测试统计量和 p 值是由于 ADF 测试的默认设置(maxlag = 无)使用的样本量小和滞后数高。我知道当 maxlag 设置为 None 时,它使用公式 int(np.ceil(12. * np.power(nobs/100., 1/4.)))。
这样合适吗?如果没有,对于具有少量观察的数据集或经验法则是否有任何解决方法可以在 ADF 函数中手动设置 maxlag 值以避免看似错误的测试统计。我搜索了here、here 和here,但找不到解决方案。
我使用的是 statsmodels 0.8.0 版。
【问题讨论】:
-
嗨 DummieCoder - 我稍后会尽力为您提供帮助,但我建议您也在 quant stackexchange 上发帖:quant.stackexchange.com
-
谢谢拉斐尔!我假设您建议在 quant.stackexchange 上发帖,因为问题是关于时间序列的,这是财务预测的重要组成部分?我只是想确保在多个论坛上发布相同的问题是一种可接受的做法。如果有人在一个站点而不是另一个站点上回答问题,它将如何工作?
标签: python time-series statsmodels arima