【授课老师】
陈远祥,北京邮电大学副教授。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。
【课程大纲】
1. 文本分析概述
1.1 自然语言处理的层次
1.2 自然语言处理的难点
1.3 自然语言处理的流派
2. 文本分析关键技术
2.1 常用文本整理和清洗方法
2.1.1 句子拆分
2.1.2 词拆分
2.1.3 过滤重复的单词
2.1.4 删除停用词
2.1.5 拼写检查
2.1.6 大小写变换
2.1.7 文本翻译
2.1.8 词干提取
2.1.9 提取电子邮件或URL
2.2 中文分词技术
2.2.1 规则分词
2.2.2 统计分词
2.2.3 混合分词
2.2.4 实战:结巴分词,对爬取的豆瓣数据分析,统计词频,绘制词云图
2.3 词性标注与命名实体识别
2.3.1 词性标注
2.3.2 命名实体识别
2.3.3 实战:基于jiebaku 的词性标注和基于HanLP的命名实体识别
2.4 文本向量化
2.4.1 离散化表示
2.4.2 分布式表示
2.4.3 实战:利用word2vec计算西游记中人物相似性
2.5 关键词提取
2.5.1 TF-IDF算法
2.5.2 TextRank算法
2.5.3 LDA算法
2.5.4 实战:基于LDA主题模型进行新闻关键词提取
2.5.5 实战:网页相似性分析
2.6 文本分类
2.6.1 分类算法介绍
2.6.2 实战:贝叶斯新闻分类
2.6.3 实战:虚假评论分类
2.7 文本聚类
2.7.1 kmeans算法介绍
2.7.2 实战:百度百科数据聚类
2.7.3 实战:豆瓣书籍数据聚类
2.8 文本情感分析
2.8.1 基于规则的情感分析
2.8.2 基于机器学习模型的情感分析
2.8.3 实战:基于豆瓣电影的情感分析
2.8.4 实战:在线情感分析系统
联系方式:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu