【授课老师】
陈远祥,北京邮电大学副教授。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。
【课程大纲】
1. 爬虫基础
1.1 爬虫基本概念
1.2 通用爬虫和聚焦爬虫
1.3 http的请求与响应
1.4 网页基础知识
2. 简单爬虫实现
2.1 爬虫基本原理
2.2 爬虫与反爬虫
2.3 正则表达式
2.4 requests库实现http请求
2.4.1 实战1:豆瓣电影分类排行榜(JSON数据格式)
2.4.2 实战2:猫眼电影排行榜数据提取
2.4.3 实战3:基于cookies爬取豆瓣短评分析
2.5 Beautiful Soup
2.5.1 网页的解析
2.5.2 网页元素的选取
2.5.3 实战:从中国天气网获得天气数据;爬取豆瓣电视剧评分
3. 爬虫高级技术进阶
3.1 多页面的爬取
3.2 动态渲染页面的爬取
3.3 基于selenium的自动化爬取技术
3.4 实战:多页面爬取京东商品数据
联系方式:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu