PSM倾向匹配避坑指南:为什么你的Stata结果总不显著?从假设检验到协变量选择的7个关键点
在实证研究中,PSM(倾向得分匹配)已成为处理观察性数据选择偏差的标配工具。但许多研究者常陷入一个怪圈:代码能跑通,匹配能完成,可最终结果要么不显著,要么与理论预期相悖。这背后往往不是PSM方法本身的问题,而是从模型设定到结果诊断的七个关键环节存在认知盲区。本文将用Stata实操案例,拆解那些教科书不会告诉你的"暗坑"。
1. 共同支撑域检验:被忽视的样本适用性门槛
共同支撑域(Common Support)是PSM有效性的第一道防火墙,但80%的失败案例都源于对此检验的草率处理。真正的共同支撑域分析远不止看一张密度分布图那么简单。
典型误区:
- 仅通过
psgraph命令观察核密度曲线重叠程度就判定样本可用 - 未设置合理的
caliper(卡尺)直接进行1:1最近邻匹配 - 忽略处理组和控制组在倾向得分极值区的系统性差异
实操解决方案:
// 更严谨的共同支撑域诊断
psmatch2 treat x1 x2 x3, logit neighbor(3) caliper(0.2) common
psgraph, title("Common Support Diagnostic") xtitle("Propensity Score")
关键诊断指标:
- 匹配前后处理组与控制组的倾向得分分布重叠面积变化
- 卡尺范围内可匹配样本比例(建议>70%)
- 极端值样本的协变量均值差异(通过
pstest验证)
注意:当共同支撑域不足时,强行匹配会产生严重的样本选择偏差。此时应考虑:
- 改用半径匹配或核匹配


1万+

被折叠的 条评论
为什么被折叠?



