近期现场/远程培训 机器学习与因果推断_从DML到异质性精准治理
近期专题培训 跨越传统边界:AI赋能下的财务金融研究与论文发表
课程背景与核心痛点:
在数据维度爆炸的时代,实证研究者正面临三大瓶颈:
痛点1非混杂性难以保证:拼命堆叠控制变量,却依然无法确保识别假设成立;
痛点2推断严谨性受质疑:机器学习带来预测精度,却引入正则化偏差,审稿人对统计推断的可靠性存疑;
痛点3异质性分析粗糙:传统线性交互项方法深陷模型误设与 p-hacking 困境,异质性结论可信度不足。
本课程直面上述困境,系统讲授因果机器学习(Causal ML)的前沿方法体系,帮助研究者彻底打通从预测到因果的最后一公里。
讲师简介:
赵西亮,现任厦门大学经济学院和王亚南经济研究院经济学教授、博士生导师。
清华大学经济管理学院数量经济学专业博士,美国康奈尔大学和芝加哥大学访问学者,加拿大西安大略大学经济系博士后,长期从事中国经济和应用计量经济学研究,编著教材《基本有用的计量经济学》。赵老师在《经济研究》、《经济学》(季刊)、《数量经济技术经济研究》、《World Economy》等国内外重要期刊发表论文数余篇,同时是China Economic Review, 《经济研究》、《管理世界》、《经济学(季刊)》、《世界经济》等国内外重要期刊的匿名审稿人。
课程大纲:
核心方法:双重机器学习(DML)· 因果树与因果森林 · 策略学习
学习周期:杭州现场同步远程直播,两天沉浸式讲授,理论讲解 + 软件实操 + 案例复现
特色亮点:内嵌 Claude Code + DeepSeek 科研助理实操模块
专题一:双重机器学习(Double/Debiased Machine Learning, DML)
1、 为什么需要 DML?
1.1 纯机器学习方法的局限:
◆ ML 方法能够借助高维协变量准确估计条件期望函数 E[Y|X],但正则化机制本身会引入系统性偏差
◆ 正则化偏差(regularization bias)导致纯 ML 方法无法对目标参数给出一致估计,亦无法支撑严格的因果推断
1.2 传统方法的识别困境:
◆ 非混杂性(unconfoundedness)是因果识别的核心条件,低维协变量设定下往往难以令人信服
◆ 增加控制变量数量并不能从根本上解决遗漏变量偏误,反而可能加剧多重共线性
1.3 DML 的解决之道:
◆ 将 ML 的预测能力与计量经济学的推断框架有机融合
◆ 利用 ML 方法精确估计冗余参数,同时借助 Neyman 正交和交叉拟合技术消除正则化偏差
◆ 在高维协变量设定下实现对目标参数的一致估计与有效统计推断
2、DML 核心技术特色
◆ 两阶段分离估计框架
▷ 第一阶段:利用 ML 方法估计冗余参数(nuisance parameters),充分发挥 ML 的预测优势
▷ 第二阶段:对残差化后的数据运行标准回归,估计目标参数并构造统计推断
◆ Neyman正交性(Neyman Orthogonality)
▷ 核心保证:对冗余参数的一阶估计误差不传导至目标参数,显著降低正则化偏差的污染
◆ 交叉拟合(Cross-Fitting)
▷ 通过样本分割与交叉预测,彻底消除 ML 正则化引入的过拟合偏差
▷ 确保目标参数的渐近正态性,为置信区间构造提供理论保障
3、课程主要内容
3.1 机器学习基础
◆ 偏差—方差权衡(Bias-Variance Tradeoff)
◆ 交叉验证方法(k-fold CV, LOOCV)
◆ 常见 ML 算法概览:
▷ Lasso 与岭回归(Ridge Regression)——稀疏估计与收缩方法
▷ 基于树的集成方法(CART、随机森林、梯度提升)
▷ 深度神经网络(Deep Learning)基础
3.2 潜在结果框架与核心目标参数
◆ Rubin 潜在结果框架(Potential Outcomes Framework)
◆ 平均处理效应(ATE)、局部平均处理效应(LATE)与条件平均处理效应(CATE)
3.3 双重机器学习(DML)方法论
◆ Robinson(1988)半参数部分线性模型
◆ Neyman 正交性与交叉拟合的理论基础
◆多场景模型设定:非混杂性(CIA)、工具变量(IV)、双重差分(DID)等
3.4 AI 科研助理实操模块(特色专场)
◆ Claude Code + DeepSeek(或国产大语言模型)的安装与配置
◆ WorkBuddy(Open Claw)智能工作台实操演示
◆ AI 辅助文献检索、代码生成与结果解读的完整工作流
3.5 实证案例:宽带基础设施、包容性绿色增长与地区差距
◆ 参考文献:张涛、李均超(2023),《数量经济技术经济研究》
◆ 分析设定:双重机器学习框架下"宽带中国"战略的影响评估
3.6 软件实操:
◆ 环境配置:Python、scikit-learn、pystacked、ddml
◆ 代码演练:从数据清洗到 DML 估计、结果可视化全流程复现
专题二:异质性分析与精准政策学习
1、为什么需要异质性分析?
1.1 因果推断的精细化需求:
◆ 平均处理效应(ATE)遮蔽了个体层面的差异,难以指导差异化政策设计
◆ 条件平均处理效应(CATE)能够刻画政策对不同人群、不同地区的差异化影响
◆ CATE 估计支持精准治理:识别高响应群体优先施策,规避对负效应群体的误伤
1.2 传统方法的局限与现代方法的突破:
传统方法│ 线性交互项│依赖模型设定 + 需预先指定分组变量 → 模型误设风险、p-hacking 隐患
现代方法│ 因果 ML│ 非参数方法、无需模型假设 → 数据驱动发现异质性,估计更准确、结论更可靠
2、课程主要内容
2.1 从 ATE 到 CATE:谁受益更多?
◆ 个体处理效应(ITE)的识别困境与 CATE 的可估性
◆ 异质性来源的理论框架
2.2 CATE 非参数估计方法
◆ 非参数核回归方法
◆ 因果树(Causal Tree)——Athey & Imbens(2016)
◆ 因果森林(Causal Forest)——Athey, Tibshirani & Wager(2019)
◆ R-Learner——Nie & Wager(2021),拟-Oracle 异质效应估计
◆ 双重去偏机器学习(Debiased ML for CATE)——Semenova & Chernozhukov(2021)
2.3 策略学习(Policy Learning):从因果推断到精准治理
◆ 最优策略树(Optimal Policy Tree)的构造原理
◆ 基于观测数据的策略学习——Athey & Wager(2021)
◆ 高维协变量下条件处理效应估计——Fan 等(2022)
◆ 实践价值:如何将 CATE 估计转化为可操作的分组施策方案
2.4 实证案例:贸易新业态对企业绿色技术创新的异质性影响
◆ 参考文献:蒋金荷、黄珊(2024),《数量经济技术经济研究》
◆ 方法:因果森林算法 + 微观企业数据,识别贸易新业态影响异质性
联系方式
刘老师
电话:18600257362
Q Q:3196394371
微信:jgzjwanzi