因果推理 - IPTW 与最近邻匹配

Causal inference - IPTW vs nearest neighbour matching

我正在进行准实验,并且有兴趣获得 ATT。我有一个包含 260k 个条目的数据,其中 Ti = 0 和 5k 个条目,其中 Ti = 1。我正在使用 iptw 技术计算 ATT,我实现了很好的平衡,治疗效果 -on 被视为 -ve 450 欧元,但并不显着。

权重计算: (If treatment = 1, weight = 1 else propensity score / (1-propensity score)

然后,为了与其他方法进行比较,我使用比率 = 1 的最近邻匹配,再次实现了平衡。我得到的治疗效果(匹配时默认为 ATT)为 +very 750 且显着。

这两种方法不应该产生相似的结果吗?在这种情况下我应该采用哪种方法?为什么?

你匹配的时候,有没有被处理过的个体没有匹配到?

按预期,IPTW 和匹配应该给出相同的答案。一种可能的解释是,一些接受治疗的个体没有相近的匹配,因此他们被丢弃了。发生这种情况时,定义因果效应的人群会发生变化。这可能会导致方法之间的不同答案

每种方法都需要进行不同的评估。

对于 IPW,您需要检查您没有获得具有极低(或极高)倾向的样本。如果它们接近 0 或 1,那么您需要评估发生这种情况的原因,并可能从数据中删除类似的样本。由于您的标签非常不平衡,这肯定会发生。

对于匹配,就像@pzivich说的,你需要检查是否有没有匹配的样本(类似于极低的倾向)

最后,我喜欢检查 held-out 数据的平衡,以检查是否没有 over-fitting。