将不平衡面板转换为 balanced/dropping 单一条件下的多个观察值
Converting unbalanced panels into balanced/dropping multiple observations on single condition
有一个包含 3 个变量的数据集 - ID, Wage和年,是一个不平衡panel.There是2个问题:
- 我想在 ID 上删除 所有 数据,其中有一个 年 无观察。很快,我想将我的不平衡面板转换为平衡面板,删除创建此 "unbalanceness".
的每个 id
例如,如果一个 ID = 1 的人没有报告他的 年 = 2010 年的工资(因此没有观察到 Year = 2010 and ID = 1), 我想删除所有数据ID = 1.
这似乎是一个热门问题,但我在 Google 和 Whosebug 上找到的都是针对 Stata 和 none 针对 SPSS 的多种解决方案。
更新:我设法使用 COUNTIF Excel 函数解决了这个问题。我创建了一个变量来计算某些 ID 出现在数据集中的次数,并保留此函数 = 年数的观察结果,从而降低不平衡 IDs。但是,我仍然迫切需要解决第二个问题:)
- 第二个问题与第一个问题几乎相同 - 我想删除 所有 此类 IDs 的数据 有 年 当他们报告 工资 = 0
例如,如果一个 ID = 1 的人报告 工资 = 0 在 Year = 2010,我想删除 [=25 的所有数据=]ID = 1.
如果 SPSS 中有一个填充命令可以平衡不平衡面板和缺失值,那么第二个问题的解决方案似乎同时也是第一个问题的解决方案。
更新 2:我也在 Wage 和 ID 上使用 COUNTIFS 解决了这个问题。 Excel无所不能,赞Excel。
这将解决两个任务:
recode Wage (0=sysmis).
AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=ID /Wage_nmiss=NMISS(Wage).
select if Wage_nmiss=0.
execute.
我不知道这些数据有什么用,但如果它很重要,你应该认真重新考虑删除带有缺失变量的观测值。
通常,尤其是在工资数据中,缺失值会告诉您一些应该记录的值(Link 到 Wikipedia,关键字:MAR、MCAR、MNAR)。没有简单的方法可以消除样本中的这种偏差,但简单地删除观察结果并不是一个严肃的选择。有一些算法可以根据数据集中的其他值巧妙地估算缺失值。
如果你愿意,我可以多花点时间帮你找到合适的算法来估算缺失值..
有一个包含 3 个变量的数据集 - ID, Wage和年,是一个不平衡panel.There是2个问题:
- 我想在 ID 上删除 所有 数据,其中有一个 年 无观察。很快,我想将我的不平衡面板转换为平衡面板,删除创建此 "unbalanceness". 的每个 id
例如,如果一个 ID = 1 的人没有报告他的 年 = 2010 年的工资(因此没有观察到 Year = 2010 and ID = 1), 我想删除所有数据ID = 1.
这似乎是一个热门问题,但我在 Google 和 Whosebug 上找到的都是针对 Stata 和 none 针对 SPSS 的多种解决方案。
更新:我设法使用 COUNTIF Excel 函数解决了这个问题。我创建了一个变量来计算某些 ID 出现在数据集中的次数,并保留此函数 = 年数的观察结果,从而降低不平衡 IDs。但是,我仍然迫切需要解决第二个问题:)
- 第二个问题与第一个问题几乎相同 - 我想删除 所有 此类 IDs 的数据 有 年 当他们报告 工资 = 0
例如,如果一个 ID = 1 的人报告 工资 = 0 在 Year = 2010,我想删除 [=25 的所有数据=]ID = 1.
如果 SPSS 中有一个填充命令可以平衡不平衡面板和缺失值,那么第二个问题的解决方案似乎同时也是第一个问题的解决方案。
更新 2:我也在 Wage 和 ID 上使用 COUNTIFS 解决了这个问题。 Excel无所不能,赞Excel。
这将解决两个任务:
recode Wage (0=sysmis).
AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=ID /Wage_nmiss=NMISS(Wage).
select if Wage_nmiss=0.
execute.
我不知道这些数据有什么用,但如果它很重要,你应该认真重新考虑删除带有缺失变量的观测值。
通常,尤其是在工资数据中,缺失值会告诉您一些应该记录的值(Link 到 Wikipedia,关键字:MAR、MCAR、MNAR)。没有简单的方法可以消除样本中的这种偏差,但简单地删除观察结果并不是一个严肃的选择。有一些算法可以根据数据集中的其他值巧妙地估算缺失值。
如果你愿意,我可以多花点时间帮你找到合适的算法来估算缺失值..