Python- ARIMA 预测返回所有 NaN

Python- ARIMA predictions returning all NaNs

我正在尝试按照此处的时间序列教程进行操作(使用我自己的数据集):

https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/

令人惊讶的是,我能够令人满意地成功达到第 7 部分:ARIMA。在本节中,我遇到了很多麻烦。它的预测列中的所有值都是 NaN。

在终端里,我看到了 a date index has been provided but it has no associated frequency information and so will be ignored when forecasting

我的测试数据集在没有交易发生时有一些日期间隔,所以我用 test=test.set_index('DATE').asfreq('D', fill_value=0) .我也对我的 ARIMA 数据集做了同样的事情,所以索引与测试集匹配。

其余相关代码如下:

train=df[0:180]
test=df[180:]
SARIMA=test.copy()

fit=sm.tsa.statespace.SARIMAX(train['COUNT'], order=(1,1,1), seasonal_order=(0,0,0,5)).fit()
SARIMA['SARIMA']=fit3.predict(start=0, 
    end=93,dynamic=True)

print(SARIMA) 
print(test)

在打印输出中,测试集和ARIMA集的索引相同。 ARIMA 包含一列 SARIMA,其中包含预测,除了它们都是 NaN。我错过了什么?

test
DATE        COUNT
2018-06-21    1
2018-06-22    3
..
2018-11-21    3
2018-11-22    4

SARIMA
DATE        COUNT    SARIMA
2018-06-21    1       NaN
2018-06-22    3       NaN
..
2018-11-21    3       NaN
2018-11-22    4        NaN

编辑: 出于某种原因 statsmodels 根本无法检测到索引频率。我试过了 SARIMA=SARIMA.set_index('DATE').asfreq('D',fill_value=0) SARIMA.index=pd.to_datetime(SARIMA.index) SARIM.index=pd.DatetimeIndex(SARIMA.index.values, freq='D') 但是警告总是出现

编辑:我直接尝试在 Excel 中创建一个新数据集:

DATE       COUNT
2018/01/01   1
2018/01/02   2
..
2018/01/10   3
2018/01/11   4

使用上面相同的行创建了模型,只是将 enforce_stationarityenforce invertibility 设置为 False。所有的预测还是NaN

edit3:使用伪造的 excel 数据集,我更接近了 1 步。通过 start='2018-01-01'end='2018-01-21' 产生了全 0 的预测,这比 NaN 更好。谁能理解这些结果?

edit4:设置 dynamic=False 返回了合理的预测。显然我不是统计学家

数据集中缺少一些日期 SARIMA.index=pd.DatetimeIndex(SARIMA.index.values, freq='D') 更正了这一点。

此行为背后的另一个原因可能是 'sarimax' 参数。我还没有找到覆盖它的方法,所以如果这是原因,请尝试更改您的初始参数。

import random
import statsmodels.api
import numpy as np
import matplotlib.pyplot as plt

endog = np.array(random.sample(range(100,200), 17))

for cd in range(2):

    m = statsmodels.api.tsa.statespace.SARIMAX(
                                                    endog = endog,
                                                    order = (1,1,1),
                                                    seasonal_order = (0,cd,0,12),
                                                    trend = 'n'
                                               ).fit()


    plt.plot(endog)
    plt.plot(m.fittedvalues)
    plt.title('D: ' + str(cd))
    plt.show()