机器学习及R应用

现场

5200元 / 4500元 (仅限全日制本科生及硕士研究生优惠价)

远程

5200元 / 4500元 (仅限全日制本科生及硕士研究生优惠价)
上课地点:北京现场班 讲师:陈强 报名时间:2020/10/1 - 2021/07/23 开课时间:2021年7月24-28日(五天)

机器学习及R应用五天现场班

山东大学 陈强教授

机器学习早期为人工智能的分支,后来也有不少统计学家加入,最近一、二十年因为其预测精度迅速提高而走红,并在业界有着广泛的应用。可以预见,在未来三十年,几乎所有行业都会因机器学习的深刻冲击而改变。MIT名誉校长Eric Grimson曾预言,机器学习会成为像Word一样的工具。而谁先掌握此工具,则可占得先机,成为时代的弄潮儿(至少不会落伍)。


基于机器学习的通用性,本次“机器学习及R应用”五天现场班将面向所有行业与学科的人士、老师与学生(包含经管社科、医学卫生等领域)。本课程的最大特色在于“一站式服务”,从机器学习的原理、数学推导,到R语言命令与经典案例,无不精心设计、丝丝入扣,理论联系实操,让学员们迅速理解机器学习的精髓,并掌握最为流行的数据科学软件R语言操作。


本课程由山东大学经济学院陈强教授亲授。陈强教授获得北京大学经济学学士、硕士,美国Northern Illinois University数学硕士、经济学博士,现为数量经济学博士生导师,在统计学、计量经济学及机器学习领域具有深厚的功底,2010年入选教育部新世纪优秀人才支持计划。陈强老师著有畅销研究生教材《高级计量经济学及Stata应用》(第2版,高教社,2014),以及《机器学习及R应用》(高教社,2020,即将出版)与《机器学习及Python应用》(高教社,2020,出版)。陈强老师特别擅长深入浅出、直指人心地介绍数据分析原理,深受广大学生们的喜爱,其现场班常常人满为患、好评如潮。


机器学习及R应用五天现场班·授课大纲

山东大学 陈强教授


授课方式:思想原理 + 数学精髓 + R经典案例


1  机器学习引论

(1) 什么是机器学习

(2) 机器学习的分类与术语

(3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶


2  R语言快速入门

(1) Why R

(2) 安装RRStudio

(3) R的对象(vector, matrix, data frame,list)

(4) 面向对象的函数式语言

(5) R语言画图


3 数学回顾

(1) 梯度向量
(2) 
方向导数

(3) 梯度下降

(4) 向量微分

(5) 最优化


4 线性回归

(1) OLS

(2) 过拟合与泛化能力

(3) 偏差与方差的权衡

(4) 交叉验证

(5) R案例:多项式回归的过拟合;波士顿房价


5 逻辑回归

(1) Logit

(2) 几率比

(3) 灵敏度与特异度

(4) ROCAUC

(5) 科恩的kappa

(6) R案例:泰坦尼克号旅客的存活


6 多项逻辑回归

(1) 多项Logit

(2) R案例:识别玻璃类别


7 判别分析

(1) 线性判别分析(Linear Discriminant Analysis)

(2) 二次判别分析(Quadratic Discriminant Analysis)

(3) 费雪判别分析(Fisher Discriminant Analysis)

(4) R案例:鸢尾花品种的归类


8 朴素贝叶斯

(1) 朴素贝叶斯(Naive Bayes)

(2) 拉普拉斯修正(Laplacian Correction)

(3) R案例:垃圾邮件的识别


9 惩罚回归

(1) 高维回归的挑战

(2) 岭回归(Ridge Regression)

(3) 套索估计(Lasso)

(4) 弹性网估计(Elastic Net)

(5) R案例:前列腺癌的影响因素


10讲 K近邻法

(1) 回归问题的K近邻法

(2) 分类问题的K近邻法

(3) R案例:摩托车撞击实验数据;模拟混合数据;威斯康辛乳腺癌的诊断


11 决策树

(1) 分类树(Classification Tree)

(2) 分裂准则(错分率、基尼指数、信息熵)

(3) 成本复杂性修枝

(4) 回归树(Regression Tree)

(5) R案例:波士顿房价;葡萄牙银行市场营销


12 随机森林

(1) 集成学习(Ensemble Learning)

(2) 装袋法(Bagging)

(3) 随机森林(Random Forest)

(4) 变量重要性(Variable Importance)

(5) 偏依赖图(Partial Dependence Plot)

(6) R案例:波士顿房价;声呐信号的分类


13 提升法

(1) 自适应提升法 (AdaBoost)

(2) AdaBoost的统计解释

(3) 梯度提升法 (Gradient Boosting Machine)

(4) XGBoost

(5) R案例:波士顿房价;过滤垃圾邮件;识别玻璃类别


14 支持向量机

(1) 最大间隔分类器(Maximal Margin Classifier)

(2) 软间隔分类器(Soft MarginClassifier)

(3) 支持向量机(Support Vector Machine)

(4) 核技巧(Kernel Trick)

(5) 支持向量回归(Support Vector Regression)

(6) R案例:模拟数据;过滤垃圾邮件;识别手写数字;波士顿房价


15  人工神经网络

(1) 人工神经网络的思想

(2) 感知机(Perceptron

(3)前馈神经网络(Feedforward Neural Network)

(4) 激活函数(Activation Function)

(5) 反向传播算法(Back-propagation Algorithm)

(6) 随机梯度下降(Stochastic Gradient Descent)

(7) 神经网络的过拟合与正则化

(8) 卷积神经网络(Convolution Neural Network)

(9) 深度学习的发展

(10) R案例:波士顿房价;声呐信号的分类;鸢尾花品种的分类


16  非监督学习之主成分分析

(1) 总体中的主成分分析

(2) 样本中的主成分分析

(3) 方差分解与降维

(4) 主成分回归(Principal Component Regression)

(5) R案例:左右耳听力;香港回归的经济效应


17  非监督学习之聚类分析

(1) K-均值聚类(K-means Clustering)

(2) 分层聚类(Hierarchical Clustering)

(3) 树状图

(4) 基于相关系数的距离

(5) R案例模拟数据;鸢尾花品种的归类


18  数据科学的R语言

(1) 何为数据科学

(2) 管道算子(Pipe Operator)

(3) Rtidyverse(输入数据、数据清理、数据变换)

(4) Rggplot2(高阶画图)

(5) Rcaret(机器学习的统一接口)

(6) R案例Rtidyverse的自带案例;威斯康辛乳腺癌的诊断



第19讲(Bonus Lecture)  机器学习在经管社科的应用

精读几篇在经管社科顶刊发表的经典机器学习论文


不难看出,本次课程可谓干货满满、奇货可居。更难得可贵的是,主讲老师陈强教授具有丰富的教学经验、激情与魅力,是广大计量学子心目中真正的“计量男神”,尤其擅长化繁为简、直指人心,让学员们迅速上手新知识与技能。


跟着陈强老师,五天入门机器学习,登堂入室,立竿见影,赶上时代的步伐!


优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

同一单位六人以上同时报名8折优惠;

以上优惠与学生优惠价不叠加。


联系方式:

尹老师

电话:010-53352991

QQ:42884447

WeChat:yinyinan888

尹老师微信二维码.png




【尾声】不久前,陈强老师还专门在其公众号“计量经济学及Stata应用”回答了关于机器学习的常见问题,献给对于机器学习尚有疑问的你。


Why Machine Learning: 我应该学机器学习吗?


“机器学习”(Machine Learning)无疑越来越多地出现于媒体与我们的身边。机器学习究竟是什么?对于经管类或社科类的学者或学生,一个重要的问题是,“我应该学机器学习吗”?换言之,不掌握机器学习的机会成本是什么?本文就以问答的形式来回答这些问题。


Q:什么是机器学习?

A简单说,机器学习就是让机器(计算机)从数据中自主学习的能力。它的反面就是“硬编码”(hard coding)。假设你想写一个程序,让计算机识别正常邮件与垃圾邮件。硬编码的方法就是,由人类写下判别垃圾邮件的规则,再告诉计算机。此时,计算机并不学习,只是严格执行人类的死板分类规则。可以想象,硬编码的效果不会太好,因为虽然人类可直观地判定垃圾邮件,但并不知道自己是怎么做到的。反之,机器学习的方法则给予计算机大量的邮件,经过人类标注为垃圾邮件或正常邮件,然后让计算机找出这两类邮件的差异规律(比如常见词的不同词频),并用学到的规律(其实就是一个函数映射,即从词频到邮件类别的映射)对新邮件进行分类。


Q:机器学习与统计学或计量经济学的主要区别是什么?

A机器学习、统计学或计量经济学都想估计出一个从(向量)到的函数映射,即。主要区别在于,统计学与计量经济学一般更关注参数估计量,因为它通常可用来解释的影响(比如,对于线性回归模型,就是边际效应)。另一方面,机器学习主要关注,其成功标准一般用预测的准确率来衡量。比如,在使用计算机识别手写体数字时,一般只关心算法的准确率,并不在乎究竟是哪些像素导致了计算机将图像归类为“5”而不是“6”。


Q:为什么机器学习这么“火”?

A由于机器学习专注于预测,故在业界有很多应用。特别是最近二、三十年,机器学习(包括深度学习)发展很快,预测错误率不断下降(特别在图像识别,自然语言处理领域)。一般来说,机器学习的预测错误率可能比传统的统计或计量方法低一个数量级,比如前者的错误率为1%,而后者的错误率为10%。原因之一是,传统的统计或计量经济学十分强大模型的可解释性(interpretability),故大量使用线性模型,而现实世界存在很多非线性。


Q:既然机器学习的优势在于预测,而我作为经管或社科类的学者,只关心因果推断,有必要学机器学习吗?

A事实上,因果推断的本质也是预测问题。根据鲁宾的因果模型(Rubin's Causal Model),因果效应通过“潜在结果”(potential outcome)来定义,即政策实施后的“观测结果”(observed outcome)与政策如果未实施的“反事实结果”(counterfactual outcome)之差。显然,反事实结果不可观测,只能在一定假设之下进行估计与预测。


Q:目前机器学习在计量经济学中有哪些应用?未来的发展趋势如何?

A迄今为止(尤其是最近十年),机器学习已经在计量经济学中掀起了两波应用的浪潮。第一波浪潮为MIT的Chernozhukov教授等将Lasso系列的惩罚回归方法引入计量经济学,提出了post doubleselection lasso,IV lasso,double machine learning等适用于因果推断的机器学习方法。第二波浪潮为Stanford的Susan Athey教授等将基于决策树(tree-based)的机器学习方法引入计量经济学,提出了causal tree,causal forest,local linear forest与generalizedrandom forest等方法(不少论文刚发表或仍为工作论文)。在可预见的将来,机器学习方法将加速融入计量经济学,成为计量经济学的重要组成部分,尤其在非参数估计与半参数估计领域。这是因为,传统的统计与计量的非参方法主要为基于核(kernel)的局部回归,很难推广到高维(因为存在维度灾难,curse ofdimensionality),而机器学习方法(比如基于决策树的随机森林、梯度提升法)在高维空间依然适用,而且预测准确率更高。


Q:作为经管或社科类的学者或学生,我应该学机器学习吗?

A在几年前,如果你知道Lasso,说明你是先进的;但现在已经很难这么说了。再过几年,如果你还不知道Lasso,则很可能说明你是落后的,因为关于Lasso的知识正在加速普及。类似地,如果你现在就知道随机森林(randomforest),说明你是先进的;……。在科研的道路上,抢占先机无疑十分重要。你的选择决定了你究竟是先知先觉,还是后知后觉……


Q:我是文科生,能学会机器学习吗?

A如果你学过统计学或计量经济学,应该很容易上手机器学习。在某种意义上,机器学习比计量经济学更简单。机器学习主要关心“算法”(algorithm),所用数学基本上就是最优化(optimization),一般并不使用统计学或计量经济学的那些复杂的渐近理论(asymptotics)。而且有些传统的统计与计量方法,也是机器学习的常用方法,比如OLS、Logit、多项Logit等,这些你本来就会啊。

结语:这是一个令人激动的时代。人工智能与机器学习正在深刻地改变着几乎每个行业与学科(包括计量经济学),而机器学习正是未来世界的一块重要柱石。