1. 工具变量方法的核心原理与应用场景
工具变量(IV)是解决内生性问题的经典方法。想象一下,你想研究吸烟对肺癌的影响,但直接比较吸烟者和非吸烟者的健康数据会有偏差——因为吸烟者可能本身生活习惯更不健康。这时候就需要找一个"工具",比如政府对烟草征收的税率,这个税率会影响人们吸烟的概率(相关性),但不会直接影响健康(排他性)。这就是工具变量的基本思想。
有效的工具变量必须满足三个核心条件:
- 相关性:工具变量Z必须与处理变量D相关。比如税率高低确实会影响吸烟行为。
- 排他性:Z只能通过D影响Y,不能有直接路径。税率变化不应直接影响健康,只能通过改变吸烟行为间接影响。
- 外生性:Z与误差项不相关。税率制定不应与个人健康因素相关。
在实际操作中,我们常用两阶段最小二乘法(2SLS):
- 第一阶段:用Z预测D,得到D的估计值D̂
- 第二阶段:用D̂代替D进行回归
# 2SLS简单实现示例
from linearmodels import IV2SLS
model = IV2SLS(dependent=Y, exog=X, endog=D, instruments=Z)
results = model.fit()
经济学中的经典案例包括:
- 用距离到学校的距离作为教育年限的工具变量,研究教育对收入的影响
- 用降雨量作为农业收入的工具,研究经济冲击对冲突的影响
- 用医生偏好作为治疗方式的工具,研究不同治疗方案的效果
2. 内生性问题与DeepIV的突破
传统工具变量方法最大的局限是线性假设。现实中很多因果关系是非线性的——药物剂量与疗效的关系可能是S型曲线,广告投入与销量的关系可能有阈值效应。这时候DeepIV就派上用场了。
DeepIV的创



被折叠的 条评论
为什么被折叠?



