为缺失值 NA 创建一个反事实组

Creating a counterfactual group for missing values NAs

我有一个数据框,其中包含我正在使用 R 处理的 1681 个变量的 17497 个观察值。一些变量是标称的,一些是有序的,一些是数字的,等等。

我专注于代表上个月净召回工资的那个(dataframe$q31,其中 q31 仅表示问卷中的问题 31)。变量是数字。 碰巧有许多缺失值表示为 NA。拥有管理和专业职位的人往往更可能不透露他们的收入。同时更有可能赚得更多。因此,我进一步的分析可能会被扭曲。

我想用净召回工资创建另一列,其中 NA 不是用平均值代替,而是用给定的人最有可能给出的数字最好考虑到数据框中的所有其他特征. 如果不可能,至少它的:

如果可能还有受访者居住的地区,但直到 1999 年波兰有 49 个区,之后是 16 个,因此有两个变量:voiev49 和 voiev16,它们在无效年份被编码为 NA。

我认为这可能与倾向得分匹配或我在网上找到的这些软件包有关:http://cran.r-project.org/web/packages/optmatch/optmatch.pdf

在 R 中有什么神奇的方法可以做到这一点吗?

看来我可以使用 Amelia 包来处理它: http://cran.r-project.org/web/packages/Amelia/vignettes/amelia.pdf#subsection.4.4 http://cran.r-project.org/web/packages/Amelia/Amelia.pdf

是的,在 Cross Validated 上有很多资料,例如 https://stats.stackexchange.com/questions/95832/missing-values-nas-in-the-test-data-when-using-predict-lm-in-r

@nograpes,谢谢你的所有提示!