填充 huge/large 块时间序列数据
Filling huge/large chunks of time-series data
填充时间序列数据中缺失值的最佳方法是什么。数据在工作时间变化很大。数据大块丢失。
我已经尝试过向后、向前填充和均值技术来填充数据。我也尝试过使用 pandas 包进行插值(线性、最近和多项式)。但是取得的成果用处不大。enter image description here
第一张图显示了 4 月 6-9 日左右的缺失数据。第二张图是在使用线性插值填充缺失值后绘制的。
填充此类数据的最佳方法是什么?恐怕线性插值最终会污染数据。
我读过一些关于卡尔曼滤波器的内容。不确定如何使用它。
这实际上取决于缺失数据块的大小,但训练模型以预测缺失值在某些情况下可能会奏效。
除了使用 linear regression
,您还可以尝试使用其他模型,例如 k-nn regression
。此外,datawig
模块 (Github) 使用神经网络学习机器学习模型,以便估算表中的缺失值。
python中的卡尔曼滤波器可以在FilterPy
模块中找到。有关详细信息,您可以阅读文档 here.
此外,由于您有时间序列数据可供使用,您可以查看 ARIMA model 是否可以完成预测缺失值的工作。
填充时间序列数据中缺失值的最佳方法是什么。数据在工作时间变化很大。数据大块丢失。
我已经尝试过向后、向前填充和均值技术来填充数据。我也尝试过使用 pandas 包进行插值(线性、最近和多项式)。但是取得的成果用处不大。enter image description here
第一张图显示了 4 月 6-9 日左右的缺失数据。第二张图是在使用线性插值填充缺失值后绘制的。
填充此类数据的最佳方法是什么?恐怕线性插值最终会污染数据。
我读过一些关于卡尔曼滤波器的内容。不确定如何使用它。
这实际上取决于缺失数据块的大小,但训练模型以预测缺失值在某些情况下可能会奏效。
除了使用 linear regression
,您还可以尝试使用其他模型,例如 k-nn regression
。此外,datawig
模块 (Github) 使用神经网络学习机器学习模型,以便估算表中的缺失值。
python中的卡尔曼滤波器可以在FilterPy
模块中找到。有关详细信息,您可以阅读文档 here.
此外,由于您有时间序列数据可供使用,您可以查看 ARIMA model 是否可以完成预测缺失值的工作。