近期现场/远程培训 DeepSeek助力科研:解锁论文与本地部署,智能体
近期专题培训 跨越传统边界:AI赋能下的财务金融研究与论文发表
【授课老师】
陈远祥,北京邮电大学博导。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括数据分析,大数据,人工智能。发表SCI/EI学术论文100余篇,其中第一或通讯作者论文60余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,Optics Express, IEEE Photonics Technology Letters,Photonics Journal,Applied Optics等多个SCI期刊审稿人。
【课程大纲】蓝色字体为本次新增内容
1. 文本分析概述
目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战
1) 文本数据与文本分析
2) 自然语言处理的流派
3) 文本分析的常见应用
4) 文本分析的层次
5) 文本分析的流程
6) 文本分析的挑战
2. 文本单元的提取与标注
目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法
1) 文本数据的读取:csv, excel,word, pdf, txt
2) 文本数据的清洗
3) 分词
4) 词性标注
案例:
案例1:年报数据的读取;
案例2:评论数据分词和词云图绘制;
案例3:新闻词性标注
3. 文本特征的选取与表示
目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点
1) 词袋模型
2) TF-IDF
3) Word2Vec
4) GloVe
5) Doc2vec
6) FastText
7) BERT深度学习方法
案例:
案例1:基于word2vec的西游记人物相似性分析;
案例2:基于维基百科的glove模型特征提取
4. 关键词提取
目标:掌握三种关键词提取方法
1) 基于统计的方法:TF-IDF
2) 基于图算法的方法:TextRank,RAKE
3) YAKE
4) LDA
案例:
案例1:新闻语料关键词提取;
案例2:LDA关键词提取和可视化
5. 文本分析的常见应用
目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能
1) 文字云
2) 文本分类
3) 文本聚类
4) 文本摘要
5) 情感分析
案例:
案例1:评论数据词云图的绘制;
案例2:基于贝叶斯的新闻分类;
案例3:爬取豆瓣评论并构建分类器;
案例4:百科数据聚类;
案例5:豆瓣读书数据聚类
6. 基于深度学习的文本分析技术
目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入
1) RNN
2) LSTM
3) textCNN
4) GRU
5) 注意力机制
6) BERT和Transformer
案例:
案例1:基于DNN的评论分类;
案例2:基于RNN的评论分类;
案例3:基于LSTM的文本分类;
案例4:基于Text-CNN的文本分类
7. 基于大模型的文本分析
目标:AI大模型辅助文本分析,高效提取文本价值
1) 利用大模型进行文本特征提取
2)利用嵌入特征进行文本分类
3)利用嵌入特征进行回归
4)利用嵌入特征文本相似性提取和推荐
5)利用嵌入特征进行零样本分类
6)利用嵌入特征进行聚类
7)少样本学习
8)结构化数据提取
9)内容摘要的提取
10)内容分类
11)情感分析
12)文本知识图谱构建
13)文本聊天机器人构建
14)基于微调大模型的文本分析
案例:
案例1:美食点评数据分析(基于通义千问的文本嵌入特征获取);
案例2:点评数据的分类和回归;
案例3:基于deepseek的豆瓣文本情感分析;
案例4:基于deepseek的文本情感词提取;
案例5:基于deepseek的新闻文本分类;
案例6:基于deepseek的结构化信息提取;
案例7:基于deepseek的文本情感词提取;
案例8:deepseek聊天机器人构建;
案例9:中药文本知识图谱构建;
案例10:法律大模型微实践
【联系方式】
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu