为缺失值 NA 创建一个反事实组
Creating a counterfactual group for missing values NAs
我有一个数据框,其中包含我正在使用 R 处理的 1681 个变量的 17497 个观察值。一些变量是标称的,一些是有序的,一些是数字的,等等。
我专注于代表上个月净召回工资的那个(dataframe$q31,其中 q31 仅表示问卷中的问题 31)。变量是数字。
碰巧有许多缺失值表示为 NA。拥有管理和专业职位的人往往更可能不透露他们的收入。同时更有可能赚得更多。因此,我进一步的分析可能会被扭曲。
我想用净召回工资创建另一列,其中 NA 不是用平均值代替,而是用给定的人最有可能给出的数字最好考虑到数据框中的所有其他特征.
如果不可能,至少它的:
- 职业(q22isc27,序数)
- 年经验(q24c,数字)
- 年龄(q9age,数字)
- 性别(q8,1- 男性,2- 女性)
- 调查年份(pgssyear,数字)
- 受教育年限(有问题:对于所有可用的 q131ed 变量,由测量员自己填写并且高度近似,另外它需要重新编码为数字,因为它在 R 中以某种方式显示为名义值;因为1999 q131edr 可用,由调查者自己填写并且是有序的(在 spss 中显示为 "scale")
- 婚姻状况(q21,顺序)
- 受雇公司的所有权状况(q46e,序号)
- 每周工作小时数(q21,数字)
- 权重变量(权重,数字:它描述了一个人相对于整个人口的"representativeness")(!)
如果可能还有受访者居住的地区,但直到 1999 年波兰有 49 个区,之后是 16 个,因此有两个变量:voiev49 和 voiev16,它们在无效年份被编码为 NA。
我认为这可能与倾向得分匹配或我在网上找到的这些软件包有关:http://cran.r-project.org/web/packages/optmatch/optmatch.pdf
在 R 中有什么神奇的方法可以做到这一点吗?
看来我可以使用 Amelia 包来处理它:
http://cran.r-project.org/web/packages/Amelia/vignettes/amelia.pdf#subsection.4.4
http://cran.r-project.org/web/packages/Amelia/Amelia.pdf
是的,在 Cross Validated 上有很多资料,例如
https://stats.stackexchange.com/questions/95832/missing-values-nas-in-the-test-data-when-using-predict-lm-in-r
@nograpes,谢谢你的所有提示!
我有一个数据框,其中包含我正在使用 R 处理的 1681 个变量的 17497 个观察值。一些变量是标称的,一些是有序的,一些是数字的,等等。
我专注于代表上个月净召回工资的那个(dataframe$q31,其中 q31 仅表示问卷中的问题 31)。变量是数字。 碰巧有许多缺失值表示为 NA。拥有管理和专业职位的人往往更可能不透露他们的收入。同时更有可能赚得更多。因此,我进一步的分析可能会被扭曲。
我想用净召回工资创建另一列,其中 NA 不是用平均值代替,而是用给定的人最有可能给出的数字最好考虑到数据框中的所有其他特征. 如果不可能,至少它的:
- 职业(q22isc27,序数)
- 年经验(q24c,数字)
- 年龄(q9age,数字)
- 性别(q8,1- 男性,2- 女性)
- 调查年份(pgssyear,数字)
- 受教育年限(有问题:对于所有可用的 q131ed 变量,由测量员自己填写并且高度近似,另外它需要重新编码为数字,因为它在 R 中以某种方式显示为名义值;因为1999 q131edr 可用,由调查者自己填写并且是有序的(在 spss 中显示为 "scale")
- 婚姻状况(q21,顺序)
- 受雇公司的所有权状况(q46e,序号)
- 每周工作小时数(q21,数字)
- 权重变量(权重,数字:它描述了一个人相对于整个人口的"representativeness")(!)
如果可能还有受访者居住的地区,但直到 1999 年波兰有 49 个区,之后是 16 个,因此有两个变量:voiev49 和 voiev16,它们在无效年份被编码为 NA。
我认为这可能与倾向得分匹配或我在网上找到的这些软件包有关:http://cran.r-project.org/web/packages/optmatch/optmatch.pdf
在 R 中有什么神奇的方法可以做到这一点吗?
看来我可以使用 Amelia 包来处理它: http://cran.r-project.org/web/packages/Amelia/vignettes/amelia.pdf#subsection.4.4 http://cran.r-project.org/web/packages/Amelia/Amelia.pdf
是的,在 Cross Validated 上有很多资料,例如 https://stats.stackexchange.com/questions/95832/missing-values-nas-in-the-test-data-when-using-predict-lm-in-r
@nograpes,谢谢你的所有提示!