授课老师:
麦斯老师,金融数学博士,某知名高校商学院副教授,主要从事金融数学,金融数据分析等领域的研究,发表SCI,EI,CSSCI核心期刊论文多篇。麦斯老师高校从教14年,主要讲授统计学、信用风险建模、金融数据挖掘等课程,先后指导学生获得全国数学模型竞赛和美国数学建模竞赛一等奖。
在具体行业方面,先后担任过咨询公司、互联网金融机构、数据管理公司的高级数据分析顾问,先后参与过客户估值、反欺诈识别、舆情分析等数据分析项目,有着丰富的行业经验。
同时具有丰富的教学讲解经验,课程生动形象,风格通俗易懂,深受学员的喜爱。
课程背景:
近年来,随着量化分析技术的进步,以及数据丰富程度的不断提升,越来越多的学者开始认识到文本信息中包含的重要价值,并将文本分析运用于经管类学术研究之中。
目前在经管类学术研究中比较常见的文本分析运用形式是,通过提取文本信息,构建变量,并运用计量等方法开展研究。
本课程的重要内容就是帮助学员掌握常见文本分析方法,能够运用Python编程工具进行词频分析、相似性分析、主题分析等,并构建相应的变量,理解其意义,为学员驾驭文本数据夯实基础,同时也为学员的学术研究拓展思路。
讲授方法:问题导向、边讲边练
前期准备:提前安装Python,掌握基础语法
课程大纲:
第一讲:经管类学术研究中的文本分析(2h)
1. 文本分析基本思路
2. 文本分析文献的大致分类
3. 文本分析的主要方法
第二讲:Python的文件读取(3h)
1. Python与文件夹管理
2. Python处理PDF
3. Python处理WORD
4. Python处理EXCEL
案例实践:多文件归档与整理——以年报数据整理为例
第三讲:文本分析基础(3h)
1. 文本分词
2. 停用词使用
3. 词频计算
4. TFIDF计算
5. 学术研究中的词频是如何计算的?
第四讲:词向量分析(3h)
1. 词向量原理
2. 词向量的实现
3. 近义词发现
案例实践:基于种子词近义词发现与词库建设(样例数据)
参考文献:
[1] 危雁麟,张俊瑞,汪方军,程茂勇.数据资产信息披露与分析师盈余预测关系研究——基于文本分析的经验证据[J].管理工程学报,2022,36(05):130-141.
[2] 胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
第五讲:文本相关分析(3h)
1. 文本相关分析常用方法
2. 余弦与软余弦相似性
3. 软余弦相似性度量方法
4. MD&A信息量如何度量?问与答的一致性如何度量?
案例实践:批量文本的相似性度量方法与实现
参考文献:郑晓瑜,刘俊晗.信号还是噪声?——基于上市公司年报文本变动的研究[J].投资研究,2022,41(04):70-90.
第六讲:文本主题模型(2h)
1. 主题模型的基本思路
2. 主题模型在学术中应用
3. 主题模型的实现
案例实践:批量文本的主题分布测量
参考文献:俞红海,范思妤,吴良钰,马质斌.科创板注册制下的审核问询与IPO信息披露——基于LDA主题模型的文本分析[J].管理科学学报,2022,25(08):45-62.
联系方式:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu