机器学习与因果推断_从DML到异质性精准治理

现场

2580元

远程

2580元
上课地点:杭州现场, 同步在线直播; 均提供录播回放 讲师:赵西亮 报名时间:2026/06/05 - 2026/08/05 开课时间:2026年8月5-6日(两天)

课程背景与核心痛点:

在数据维度爆炸的时代,实证研究者正面临三大瓶颈:

痛点1非混杂性难以保证:拼命堆叠控制变量,却依然无法确保识别假设成立;

痛点2推断严谨性受质疑:机器学习带来预测精度,却引入正则化偏差,审稿人对统计推断的可靠性存疑;

痛点3异质性分析粗糙:传统线性交互项方法深陷模型误设与 p-hacking 困境,异质性结论可信度不足。

本课程直面上述困境,系统讲授因果机器学习(Causal ML)的前沿方法体系,帮助研究者彻底打通从预测到因果的最后一公里。


讲师简介:

赵西亮,现任厦门大学经济学院和王亚南经济研究院经济学教授、博士生导师。

清华大学经济管理学院数量经济学专业博士,美国康奈尔大学和芝加哥大学访问学者,加拿大西安大略大学经济系博士后,长期从事中国经济和应用计量经济学研究,编著教材《基本有用的计量经济学》。赵老师在《经济研究》、《经济学》(季刊)、《数量经济技术经济研究》、《World Economy》等国内外重要期刊发表论文数余篇,同时是China Economic Review, 《经济研究》、《管理世界》、《经济学(季刊)》、《世界经济》等国内外重要期刊的匿名审稿人。


课程大纲:
核心方法:双重机器学习(DML)· 因果树与因果森林 · 策略学习
学习周期:杭州现场同步远程直播,两天沉浸式讲授,理论讲解 + 软件实操 + 案例复现
特色亮点:内嵌 Claude Code + DeepSeek 科研助理实操模块


专题一:双重机器学习(Double/Debiased Machine Learning, DML)
1、 为什么需要 DML?

1.1 纯机器学习方法的局限:

ML 方法能够借助高维协变量准确估计条件期望函数 E[Y|X],但正则化机制本身会引入系统性偏差

正则化偏差(regularization bias)导致纯 ML 方法无法对目标参数给出一致估计,亦无法支撑严格的因果推断

1.2 传统方法的识别困境:

非混杂性(unconfoundedness)是因果识别的核心条件,低维协变量设定下往往难以令人信服

增加控制变量数量并不能从根本上解决遗漏变量偏误,反而可能加剧多重共线性

1.3 DML 的解决之道:

将 ML 的预测能力与计量经济学的推断框架有机融合

利用 ML 方法精确估计冗余参数,同时借助 Neyman 正交和交叉拟合技术消除正则化偏差

在高维协变量设定下实现对目标参数的一致估计与有效统计推断

 

2、DML 核心技术特色

两阶段分离估计框架

第一阶段:利用 ML 方法估计冗余参数(nuisance parameters),充分发挥 ML 的预测优势

第二阶段:对残差化后的数据运行标准回归,估计目标参数并构造统计推断

    Neyman正交性(Neyman Orthogonality)

核心保证:对冗余参数的一阶估计误差不传导至目标参数,显著降低正则化偏差的污染

    交叉拟合(Cross-Fitting)

通过样本分割与交叉预测,彻底消除 ML 正则化引入的过拟合偏差

确保目标参数的渐近正态性,为置信区间构造提供理论保障

 

3、课程主要内容

3.1 机器学习基础

偏差—方差权衡(Bias-Variance Tradeoff)

交叉验证方法(k-fold CV, LOOCV)

常见 ML 算法概览:

Lasso 与岭回归(Ridge Regression)——稀疏估计与收缩方法

基于树的集成方法(CART、随机森林、梯度提升)

深度神经网络(Deep Learning)基础

3.2 潜在结果框架与核心目标参数

Rubin 潜在结果框架(Potential Outcomes Framework)

平均处理效应(ATE)、局部平均处理效应(LATE)与条件平均处理效应(CATE)

3.3 双重机器学习(DML)方法论

Robinson(1988)半参数部分线性模型

Neyman 正交性与交叉拟合的理论基础

多场景模型设定:非混杂性(CIA)、工具变量(IV)、双重差分(DID)等

3.4 AI 科研助理实操模块(特色专场)

Claude Code + DeepSeek(或国产大语言模型)的安装与配置

WorkBuddy(Open Claw)智能工作台实操演示

AI 辅助文献检索、代码生成与结果解读的完整工作流

3.5 实证案例:宽带基础设施、包容性绿色增长与地区差距

参考文献:张涛、李均超(2023),《数量经济技术经济研究》

分析设定:双重机器学习框架下"宽带中国"战略的影响评估

3.6 软件实操:

环境配置:Python、scikit-learn、pystacked、ddml

代码演练:从数据清洗到 DML 估计、结果可视化全流程复现

 

专题二:异质性分析与精准政策学习

1、为什么需要异质性分析?

1.1 因果推断的精细化需求:

平均处理效应(ATE)遮蔽了个体层面的差异,难以指导差异化政策设计

条件平均处理效应(CATE)能够刻画政策对不同人群、不同地区的差异化影响

CATE 估计支持精准治理:识别高响应群体优先施策,规避对负效应群体的误伤

1.2 传统方法的局限与现代方法的突破:

传统方法│ 线性交互项│依赖模型设定 + 需预先指定分组变量 → 模型误设风险、p-hacking 隐患

现代方法│ 因果 ML│  非参数方法、无需模型假设 → 数据驱动发现异质性,估计更准确、结论更可靠

2、课程主要内容

2.1 从 ATE 到 CATE:谁受益更多?

个体处理效应(ITE)的识别困境与 CATE 的可估性

异质性来源的理论框架

2.2 CATE 非参数估计方法

非参数核回归方法

因果树(Causal Tree)——Athey & Imbens(2016)

因果森林(Causal Forest)——Athey, Tibshirani & Wager(2019)

R-Learner——Nie & Wager(2021),拟-Oracle 异质效应估计

双重去偏机器学习(Debiased ML for CATE)——Semenova & Chernozhukov(2021)

2.3 策略学习(Policy Learning):从因果推断到精准治理

最优策略树(Optimal Policy Tree)的构造原理

基于观测数据的策略学习——Athey & Wager(2021)

高维协变量下条件处理效应估计——Fan 等(2022)

实践价值:如何将 CATE 估计转化为可操作的分组施策方案

2.4 实证案例:贸易新业态对企业绿色技术创新的异质性影响

参考文献:蒋金荷、黄珊(2024),《数量经济技术经济研究》

方法:因果森林算法 + 微观企业数据,识别贸易新业态影响异质性


联系方式

刘老师

电话:18600257362

Q Q:3196394371
微信:jgzjwanzi