因果推理 - IPTW 与最近邻匹配
Causal inference - IPTW vs nearest neighbour matching
我正在进行准实验,并且有兴趣获得 ATT。我有一个包含 260k 个条目的数据,其中 Ti = 0 和 5k 个条目,其中 Ti = 1。我正在使用 iptw 技术计算 ATT,我实现了很好的平衡,治疗效果 -on 被视为 -ve 450 欧元,但并不显着。
权重计算:
(If treatment = 1, weight = 1 else propensity score / (1-propensity score)
然后,为了与其他方法进行比较,我使用比率 = 1 的最近邻匹配,再次实现了平衡。我得到的治疗效果(匹配时默认为 ATT)为 +very 750 且显着。
这两种方法不应该产生相似的结果吗?在这种情况下我应该采用哪种方法?为什么?
你匹配的时候,有没有被处理过的个体没有匹配到?
按预期,IPTW 和匹配应该给出相同的答案。一种可能的解释是,一些接受治疗的个体没有相近的匹配,因此他们被丢弃了。发生这种情况时,定义因果效应的人群会发生变化。这可能会导致方法之间的不同答案
每种方法都需要进行不同的评估。
对于 IPW,您需要检查您没有获得具有极低(或极高)倾向的样本。如果它们接近 0 或 1,那么您需要评估发生这种情况的原因,并可能从数据中删除类似的样本。由于您的标签非常不平衡,这肯定会发生。
对于匹配,就像@pzivich说的,你需要检查是否有没有匹配的样本(类似于极低的倾向)
最后,我喜欢检查 held-out 数据的平衡,以检查是否没有 over-fitting。
我正在进行准实验,并且有兴趣获得 ATT。我有一个包含 260k 个条目的数据,其中 Ti = 0 和 5k 个条目,其中 Ti = 1。我正在使用 iptw 技术计算 ATT,我实现了很好的平衡,治疗效果 -on 被视为 -ve 450 欧元,但并不显着。
权重计算: (If treatment = 1, weight = 1 else propensity score / (1-propensity score)
然后,为了与其他方法进行比较,我使用比率 = 1 的最近邻匹配,再次实现了平衡。我得到的治疗效果(匹配时默认为 ATT)为 +very 750 且显着。
这两种方法不应该产生相似的结果吗?在这种情况下我应该采用哪种方法?为什么?
你匹配的时候,有没有被处理过的个体没有匹配到?
按预期,IPTW 和匹配应该给出相同的答案。一种可能的解释是,一些接受治疗的个体没有相近的匹配,因此他们被丢弃了。发生这种情况时,定义因果效应的人群会发生变化。这可能会导致方法之间的不同答案
每种方法都需要进行不同的评估。
对于 IPW,您需要检查您没有获得具有极低(或极高)倾向的样本。如果它们接近 0 或 1,那么您需要评估发生这种情况的原因,并可能从数据中删除类似的样本。由于您的标签非常不平衡,这肯定会发生。
对于匹配,就像@pzivich说的,你需要检查是否有没有匹配的样本(类似于极低的倾向)
最后,我喜欢检查 held-out 数据的平衡,以检查是否没有 over-fitting。