STATA处理效应与政策评估专题
课程导语
大家都知道培根的名言 “知识就是力量”,但很少人知道,他的另一句名言:“真正的知识是根据因果关系得到的知识”。探求因果关系既是自然科学也是社会科学研究所追求的终极目标。这是因为因果关系才是决策的基础,而相关关系最多只能用于预测,用于决策往往失败,例如儿童的鞋长X与识字率Y正相关,但我们不能通过购买大号的鞋而增长其知识。绝大多数研究基于观测数据而非试验数据,如何用观察数据来回答因果问题呢?这正是2021年诺贝尔经济学奖科普文的标题,也是本讲义的核心问题。
很多实证研究可归结于检验某项政策或干预(D)能否达到预期效果(Y)。但描述性统计或最小二乘回归(OLS)估计通常只能获得X与Y是否相关的结论,要基于观察数据回答X是否影响Y,需要基于反事实框架(POTENTIALOUTCOMES/COUNTERFACTUAL OUTCOMES)来估计潜在结果和处理效应。有时,相关分析和因果分析估计甚至会得出完全相反的结论。因此,学习并掌握处理效应的方法、了解在不同的政策背景下如何选择使用最合适的方法,对于开展严谨有效的政策评估必不可少。
课程介绍
本课程拟以STATA的“POTENTIAL OUTCOMES/COUNTERFACTUAL OUTCOMES”专题为基准,参照其他教材(如《社会经济政策的计量经济学评估》和《匹配、断点回归、双重差分及其他》)等专著和论文,由浅入深,系统讲授STATA估计处理效应的官方命令集,包括处理效应“teffects”命令、生存处理效应“stteffects”命令、索套处理效应“telasso”、内生处理效应“eteffects”命令、双重差分“didregress”、 断点回归(rd)、合成控制法(synth),以及同时应对多种内生性的扩展回归“ERM”模型。非STATA官方的估计处理效应的命令众多,但STATA官方命令采用统一的框架,基于GMM估计,能给出更一致、更有效的估计,使得统计推断更为可信。
在政策分析中,一个暗含前提是:资源是有限的,用于最有因果效应的群体,将发挥最大的成本效果。因此就需要识别哪个群体的因果效应最大,这就是异质效应估计。有时政策或干预对有的人有益,但对另外一些人有害,也需要区分识别。相应的研究问题是“When and for Who”,即何时When,在什么环境或条件下,对谁(for Who)更具有因果效应?对不同的群体或环境条件下是否有不同的因果效应?相应的命令包括工具变量分位数处理效应(ivqte)、分布回归(drprocess)、断点分位数估计(rdqte),以及局部平均处理效应(LATE)和边际效应估计(margins)。
处理效应主要回答“whether?”,即X是否对Y有影响。在给出可信的“Yes”或“No”的答案之后,人们通常会进一步追问“Why?How?”,即X为什么会影响Y?X如何影响Y?通过什么机制起作用?这是中介效应分析或影响机制分析。一个惊人的事实是,X与Y正相关,Y与Z正相关,但X可能与Z负相关,通常的中介效应分析类似于相关分析,并不具有因果机制的解释力,只有用潜在结果或反事实框架来做中介效应分析,才能得出X正向影响Y,Y正向影响Z,从而X正向影响Z的因果链。我们将介绍基于反事实框架的中介效应分析命令(paramed和rwrmed)以及工具中介效应命令(ivmediate)。结构方程模型(SEM)也是分析中介效应的利器,我们也将介绍结构方程模型的中介效应估计和分解。
讲师简介
陈传波,中国人民大学农业与农村发展学院副教授,博士生导师。自1999年开始,钻研STATA二十余载,著有《STATA十八讲》,自2004年以来,一直在中国人民大学为研究生讲授《高级计量经济学》。在《统计研究》、《管理世界》等期刊发表过相关论文,为国家第三次农业普查骨干培训班讲过数据分析课。主持过多项国家社科基金和国家自然科学基金。是《经济学季刊》、《中国农村经济》、《农业经济问题》、《农业技术经济》、《浙江大学学报》等期刊审稿人。现为北京注册会计师协会会员,中国医疗保障专业委员会委员,主要从事医保大数据分析、农村劳动力就业等方面的研究。
课程目标
本课程拟将STATA模拟、案例和必要的数学公式三者紧密结合,帮助学员在尽可能短的时间内掌握其中的关键,明白背后的基本原理和基本操作,不仅学会如何用STATA专题teffects等命令来估计处理效应,还能理解命令背景的原理,并正确解读分析结果。
课程大纲
1. 基本概念
1.1 潜在结果, 统计学中哥白尼式革命,Neyman
1.2 基本问题:无法观测到反事实结果
1.3 预测效应PE=处理效应TE+选择偏差SB
1.4 异质处理效应及其政策含义
1.5 可观察分布与反事实分布
1.6 分位数处理效应QTE
1.7 何谓有/没有处理效应?
2. 三大假设
2.1 稳定单元处理值假设(SUTVA)
2.2 数据缺失与指派机制
2.3 条件独立假设(CIA)与条件均值独立假设(CMI)
2.4 条件独立假设(CIA)与倾向得分
2.5 重叠假设(Overlap)
2.6 强忽略性假设(Stong ignorability)
2.7 平衡性(balance)
2.8 政策(项目)评估的逻辑框架
3. 三大假设成立时的处理效应估计(teffects)
3.1 需要控制哪些协变量?
3.2 OLS、IV、GMM回顾
3.3 回归调整法(RA)
3.4 逆概率加权调整法(IPW)
3.5 增强逆概率加权调整(teffects aipw)
3.6 逆概率加权回归调整(teffects ipwra)
3.7 近邻匹配法(teffects nnmatch)
3.8 倾向值匹配法(teffects psmatch)
本章始终基于两个示例:
(1)鞋的增高效应假设案例
(2)孕妇吸烟对新生儿体重的影响
4. 假设条件成立时的其他模型
4.1 多水平处理效应
4.2 广义倾向得分GPS与剂量反应函数(DRF)
4.3 索套回归(lasso)与索套处理(telasso)
4.4 分位数处理效应
4.5 QTE论文复现:培训对收入的分位数影响
4.6 分布处理效应drprocess
4.7 生存处理效应stteffects
5. 假设条件是否成立的若干检验
5.1 平衡性检验tebanance
5.2 重叠性检验overlap
5.3 CIA检验
5.4 综合案例:培训对收入的影响——实验与非实验数据的估计与前提条件检验
6. 强忽略假设不成立时的处理效应估计
6.1 处理模型(TM)可识别假设下的内生处理eteffects
6.2 论文复现:教育对生育的影响
6.3 正态分布假设下的内生处理etregress与eregress
6.4 heckit内生处理etregress ,cfunction
7. 局部处理效应
7.1 Wald估计
7.2 论文复现:参军对收入的影响
7.3 局部平均处理效应LATE
7.4 论文复现:生育对劳动供给的影响
7.5 工具变量分位数处理ivqte
7.6 论文复现:培训对收入的异质处理效应
8. 断点回归
8.1 清晰断点与模糊断点
8.2 断点回归估计
8.3 弯折回归
8.4 分位数断点回归
8.5 论文复现1:伊斯兰政党当选与女生教育
8.6 论文复现2:法定饮酒年龄与死亡率
8.7 论文复现3:班级规模与学生成绩
9. 双重差分DID
9.1 混合截面数据双重差分
9.2 面板数据的双重差分
9.3 论文复现1:最低工资法对就业的影响
9.4 论文复现2:移民流入对流入地劳动力市场的影响
9.5 论文复现3:城堡准则与暴力犯罪率
9.6 三重差分: 医院改革对患者满意度的影响
9.7 平行趋势检验
10. 合成控制法
10.1 合成控制法原理
10.2 合成控制法的实施
10.3 合成控制法的置换假设检验
10.4 案例:加州控烟政策效果
10.5 论文复现:监狱建设与黑人男性的监禁
11. 中介效应
11.1 四大假设与效应分解
11.2 案例: 认知疗法、抗抑郁药与生活满意度
11.3 论文复现:媒体故事、焦虑情绪与对移民政策偏向
10.4 工具变量中介效应
11.5 论文复现:新教伦理、识字率与资本主义发展
11.6 调节效应与交互效应
优惠政策:
1,现场班老学员九折优惠;
2,同一单位3-5人同时报名九折优惠;
折扣优惠与学生价优惠不叠加。
课程咨询:
尹老师
电话:13321178792
QQ:42884447
WeChat:yinyinan888
主要参考:
1. STATATREATMENT-EFFECTS REFERENCE MANUAL:POTENTIAL OUTCOMES/COUNTERFACTUAL OUTCOMESRELEASE 17, 2021(394)
2.《匹配、断点回归、双重差分及其他》 by 李明宰,2021(307)
3.《社会经济政策的计量经济学评估》by 乔万尼.赛鲁利,2020(290)
4. 《精通计量:从原因到结果的探索之旅》,by Joshua D. Angrist, 2019
5.Causal Inference:The Mixtape, By Scott Cunningham, 2021(657)
6.Causal Inference for Statistics, Social and Biomedical Sciences by Guido W.Imbens and Donald B. Rubin, 2015 (625)
注:括号中为书的总页数