Python- ARIMA 预测返回所有 NaN
Python- ARIMA predictions returning all NaNs
我正在尝试按照此处的时间序列教程进行操作(使用我自己的数据集):
https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/
令人惊讶的是,我能够令人满意地成功达到第 7 部分:ARIMA。在本节中,我遇到了很多麻烦。它的预测列中的所有值都是 NaN。
在终端里,我看到了
a date index has been provided but it has no associated frequency information and so will be ignored when forecasting
我的测试数据集在没有交易发生时有一些日期间隔,所以我用
test=test.set_index('DATE').asfreq('D', fill_value=0)
.我也对我的 ARIMA 数据集做了同样的事情,所以索引与测试集匹配。
其余相关代码如下:
train=df[0:180]
test=df[180:]
SARIMA=test.copy()
fit=sm.tsa.statespace.SARIMAX(train['COUNT'], order=(1,1,1), seasonal_order=(0,0,0,5)).fit()
SARIMA['SARIMA']=fit3.predict(start=0,
end=93,dynamic=True)
print(SARIMA)
print(test)
在打印输出中,测试集和ARIMA集的索引相同。 ARIMA 包含一列 SARIMA
,其中包含预测,除了它们都是 NaN
。我错过了什么?
test
DATE COUNT
2018-06-21 1
2018-06-22 3
..
2018-11-21 3
2018-11-22 4
SARIMA
DATE COUNT SARIMA
2018-06-21 1 NaN
2018-06-22 3 NaN
..
2018-11-21 3 NaN
2018-11-22 4 NaN
编辑:
出于某种原因 statsmodels
根本无法检测到索引频率。我试过了
SARIMA=SARIMA.set_index('DATE').asfreq('D',fill_value=0)
SARIMA.index=pd.to_datetime(SARIMA.index)
SARIM.index=pd.DatetimeIndex(SARIMA.index.values, freq='D')
但是警告总是出现
编辑:我直接尝试在 Excel 中创建一个新数据集:
DATE COUNT
2018/01/01 1
2018/01/02 2
..
2018/01/10 3
2018/01/11 4
使用上面相同的行创建了模型,只是将 enforce_stationarity
和 enforce invertibility
设置为 False
。所有的预测还是NaN
edit3:使用伪造的 excel 数据集,我更接近了 1 步。通过 start='2018-01-01'
和 end='2018-01-21'
产生了全 0 的预测,这比 NaN
更好。谁能理解这些结果?
edit4:设置 dynamic=False
返回了合理的预测。显然我不是统计学家
数据集中缺少一些日期
SARIMA.index=pd.DatetimeIndex(SARIMA.index.values, freq='D')
更正了这一点。
此行为背后的另一个原因可能是 'sarimax' 参数。我还没有找到覆盖它的方法,所以如果这是原因,请尝试更改您的初始参数。
import random
import statsmodels.api
import numpy as np
import matplotlib.pyplot as plt
endog = np.array(random.sample(range(100,200), 17))
for cd in range(2):
m = statsmodels.api.tsa.statespace.SARIMAX(
endog = endog,
order = (1,1,1),
seasonal_order = (0,cd,0,12),
trend = 'n'
).fit()
plt.plot(endog)
plt.plot(m.fittedvalues)
plt.title('D: ' + str(cd))
plt.show()
我正在尝试按照此处的时间序列教程进行操作(使用我自己的数据集):
https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/
令人惊讶的是,我能够令人满意地成功达到第 7 部分:ARIMA。在本节中,我遇到了很多麻烦。它的预测列中的所有值都是 NaN。
在终端里,我看到了
a date index has been provided but it has no associated frequency information and so will be ignored when forecasting
我的测试数据集在没有交易发生时有一些日期间隔,所以我用
test=test.set_index('DATE').asfreq('D', fill_value=0)
.我也对我的 ARIMA 数据集做了同样的事情,所以索引与测试集匹配。
其余相关代码如下:
train=df[0:180]
test=df[180:]
SARIMA=test.copy()
fit=sm.tsa.statespace.SARIMAX(train['COUNT'], order=(1,1,1), seasonal_order=(0,0,0,5)).fit()
SARIMA['SARIMA']=fit3.predict(start=0,
end=93,dynamic=True)
print(SARIMA)
print(test)
在打印输出中,测试集和ARIMA集的索引相同。 ARIMA 包含一列 SARIMA
,其中包含预测,除了它们都是 NaN
。我错过了什么?
test
DATE COUNT
2018-06-21 1
2018-06-22 3
..
2018-11-21 3
2018-11-22 4
SARIMA
DATE COUNT SARIMA
2018-06-21 1 NaN
2018-06-22 3 NaN
..
2018-11-21 3 NaN
2018-11-22 4 NaN
编辑:
出于某种原因 statsmodels
根本无法检测到索引频率。我试过了
SARIMA=SARIMA.set_index('DATE').asfreq('D',fill_value=0)
SARIMA.index=pd.to_datetime(SARIMA.index)
SARIM.index=pd.DatetimeIndex(SARIMA.index.values, freq='D')
但是警告总是出现
编辑:我直接尝试在 Excel 中创建一个新数据集:
DATE COUNT
2018/01/01 1
2018/01/02 2
..
2018/01/10 3
2018/01/11 4
使用上面相同的行创建了模型,只是将 enforce_stationarity
和 enforce invertibility
设置为 False
。所有的预测还是NaN
edit3:使用伪造的 excel 数据集,我更接近了 1 步。通过 start='2018-01-01'
和 end='2018-01-21'
产生了全 0 的预测,这比 NaN
更好。谁能理解这些结果?
edit4:设置 dynamic=False
返回了合理的预测。显然我不是统计学家
数据集中缺少一些日期
SARIMA.index=pd.DatetimeIndex(SARIMA.index.values, freq='D')
更正了这一点。
此行为背后的另一个原因可能是 'sarimax' 参数。我还没有找到覆盖它的方法,所以如果这是原因,请尝试更改您的初始参数。
import random
import statsmodels.api
import numpy as np
import matplotlib.pyplot as plt
endog = np.array(random.sample(range(100,200), 17))
for cd in range(2):
m = statsmodels.api.tsa.statespace.SARIMAX(
endog = endog,
order = (1,1,1),
seasonal_order = (0,cd,0,12),
trend = 'n'
).fit()
plt.plot(endog)
plt.plot(m.fittedvalues)
plt.title('D: ' + str(cd))
plt.show()