近期现场/远程培训 零代码搭建:学术应用智能体深度实战班【202509】
近期专题培训 跨越传统边界:AI赋能下的财务金融研究与论文发表
【授课老师】
陈远祥,北京邮电大学博导 。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括数据分析,大数据,人工智能。发表SCI/EI学术论文100余篇,其中第一或通讯作者论文60余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,Optics Express, IEEE Photonics Technology Letters,Photonics Journal,Applied Optics等多个SCI期刊审稿人。
【课程大纲】蓝色字体为本次新增内容
1. 爬虫基础
目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识
1) 什么是网络爬虫,爬虫的注意事项
2) http基本原理
3) web网页基础
4) 爬虫基本流程
案例:
百度,网易有道,豆瓣网页结构的理解和数据的解析;
简单网页的制作
2. 页面解析和数据存储
目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法
1) 常用网页数据解析方法,基于正则表达式的文本信息提取
2) 文本文件存储
3) JSON文件存储
案例:
正则表达式提取知网信息;
知网爬取数据的存储和读取(txt,csv,excel,json)
3. urllib和requests
目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取
1) 请求头的构造
2) urllib中的get请求与post请求
3) requests单页和多页数据的爬取
4) 动态页面的数据爬取
5) 模拟登录
6) 代理的基本使用
7) 高效代理池的维护
案例:
案例1:链家房源图片的获取和下载;
案例2:链家房源数据的获取(单页和多页);
案例3:电影分类数据的爬取(JSON数据);
案例4:电影评论的爬取(单页跳转到多页)
4. BeautifulSoup和Xpath
目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取
1) BeautifulSoup简介
2) BeautifulSoup的页面解析
3) BeautifulSoup节点选择方法
4) 什么是Xpath
5) Xpath常用匹配规则
6) Xpath的节点选择
案例:
案例1:天气预报数据的爬取(7天和40天);
案例2:豆瓣短评的爬取(多页)
5. Selenium和Playwright
目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法
1) Selenium的安装与配置
2) Selenium的基本使用
3) 页面的访问与节点定位
4) 节点信息的获取
5) Playwright的安装
6) Playwright的编写模式
7) Playwright代码生成
8) Playwright的常用操作方法
案例:
案例1:知网数据的爬取和论文的下载;
案例2:京东商品数据的爬取;
案例3:谷歌学术论文数据的爬取
6. 验证码的处理
目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法
1) OCR识别验证码
2) 图像匹配识别滑动验证码
3) 云验证码识别
案例:
OCR验证码的识别
7. Scrapy和分布式爬虫
目标:掌握scrapy爬虫框架和常用方法
1) scrapy框架介绍
2) scrapy入门
3) scrapy的节点选择
4) Spider的用法
案例:
案例1:名言引用数据的抓取;
案例2:中国新闻网数据抓取
8. 基于大模型辅助的网络爬虫
目标:利用DeepSeek辅助爬虫,提高爬虫效率
1) 大模型在爬虫中的作用
2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取
3) 爬虫代码的自动生成
4) 爬虫代码的解读和优化
案例:
案例1:基于deepseek提示词的评论数据抓取;
案例2:基于deepseek生成代码的评论数据抓取;
案例3:微博数据抓取
【联系方式】
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu