如何选择最佳估算数据以在 r 中进行进一步分析

Question

我有一个包含随机缺失值的多元时间序列数据集（将近 30 年）。

T	S	po4	si	din
9.00000	NA	0.290	5.310	18.51
8.45000	NA	0.130	6.180	14.74
13.60000	36.46000	0.010	0.500	1.86
23.20000	32.12000	0.010	6.580	0.81
26.00000	32.13000	0.070	0.500	0.23
NA	35.41400	0.010	1.670	0.72
24.80000	36.42000	0.000	3.540
24.20000	33.16000	0.110	2.020
22.50000	37.60000	0.040	0.400
16.32000	36.01000	0.020	2.900
17.60000	38.04000	0.010	0.970
9.70000	36.36000	0.120	7.950
13.80000	38.33000	0.010	5.760
7.90000	35.51000	0.060	2.350
11.90000	38.33000	0.030	3.410
24.10000	36.30000	0.020	0.730
25.20000	35.77000	0.020	1.370
24.70000	37.54000	0.330	0.700
5.75000	33.26000	0.120	0.860
13.30000	33.14000	0.000	0.000
13.60000	38.21265	0.000	0.190
15.70000	28.33000	0.040	11.500	41.64

我想填补空白以便有一个恒定的频率（我有一个带有缺失值的每月频率）在时间序列分析的内容中尝试不同的技术。我试过在 r 中使用 mice 包并决定将哪个估算数据集与 with() 和 pool() 一起使用，但我不想在模型中使用所有这些数据集，而是获取最正确的数据集并将其用于进一步分析。我怎样才能做到这一点？我怎样才能找到最好的？

否则，你能建议我另一种方法来替代鼠标吗？

非常感谢您

Answer 1

如果时间相关性很强，可以使用 imputets 包进行时间序列插补。

library(imputeTS)
na_kalman(your_dataframe)

包中还包含其他几种方法。对于小鼠，多重插补的全部意义在于拥有多个插补数据集。您将分别对它们中的每一个进行分析。然后你可以比较结果。由于插补总是会带来一些不确定性（因为您丢失的数据替换只是估计）。这种技术使您能够对不确定性进行建模/感受。

如果您不想进行多重分析并进行单一插补，您可以使用这些数据集中的任何一个，它们同样 valid/there 不是最好的。

或者您也可以使用像 misssForest 这样的单一插补包。

如何选择最佳估算数据以在 r 中进行进一步分析

How to choose best imputed data for further analysis in r

r

time-series

missing-data

r-mice

imputation