Python师资培训-爬虫实战遇见AI 2025 new

现场

2000元,提供电子版发票+通知+结业证书

远程

2000元,提供电子版发票+通知+结业证书
上课地点:南京现场,同步远程直播;均提供录播回放 讲师:陈远祥 报名时间:2025/01/16 - 2025/12/31 开课时间:2025年5月1-2日(两天)

【授课老师】

陈远祥,北京邮电大学副教授,博导 。2014年毕业于北京大学,获通信与信息系统专业博士学位,2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,Optics Express, IEEE Photonics Technology Letters,Photonics Journal,Applied Optics等多个SCI期刊审稿人。


【课程大纲】

1. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识

1) 什么是网络爬虫,爬虫的注意事项

2) http基本原理

3) web网页基础

4) 爬虫基本流程


2. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 常用网页数据解析方法,基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储


3. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) urllib中的get请求与post请求

3) requests单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护


4. BeautifulSoup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) BeautifulSoup简介

2) BeautifulSoup的页面解析

3) BeautifulSoup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择


5. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法


6. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 云验证码识别


7. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法


8. 基于大模型辅助的网络爬虫

目标:利用DeepSeek辅助爬虫,提高爬虫效率

1) 大模型在爬虫中的作用

2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取

3) 爬虫代码的自动生成

4) 爬虫代码的解读和优化


【联系方式】

尹老师

电话:13321178792

QQ:42884447

WeChat:JGxueshu

JGxueshu.jpg