Python学术丨Python爬虫实战精讲班

现场

3600元 / 3200元(本科生及硕士在读学生价)

远程

3600元 / 3200元(本科生及硕士在读学生价)
上课地点:远程直播 提供录播回放 讲师:阎老师 报名时间:2021年1月15日 (周五-周一共四天) - 2021年1月18日 (周五-周一共四天) 开课时间:2021年1月15-18日 (周五-周一共四天)

Python爬虫学术应用

大数据概念的不断升温,使得爬虫这项看似非常复杂、门槛极高的技术越来越多地出现在我们的视野里。越来越多的人开始接触、关注和学习爬虫。因为爬虫能够帮助我们获取大量有价值的数据,比如商品的销量、评价和消费人群,比如股票的名称、成交量和交易信息。

在了解爬虫的过程中,由于对这项技术缺乏系统了解,小白们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程,有的人计划从软件的基本语法入门,也有人打算弄懂了网页结构再来……在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握规律和方法的确非常重要。

这一门课的目的,就是希望能够通过通俗易懂的讲解,令没有编程基础的研究人员通过学习,能够举一反三学,最终掌握熟练爬取主流网站内容的技能,并整理成为可为后续分析提供依据的数据资料。因而,这门课剔除了不必要的分支功能学习,只有爬虫。对,只有爬虫。在这门课结束之后,我们能够爬取微博、豆瓣、知乎、猫眼、淘宝、苏宁、携程、股票还有Zhi网……

为了能够完整地呈现Python数据采集的方法和过程,这门课将分为四大部分——


一、Python快速入门(9/16,6小时)

在写爬虫之前,我们需要了解一些有关工具的基础知识。所以,第一天的授课内容是关于Python基础的,是后续课程中读懂并编写爬虫程序的铺垫。这部分内容将紧紧围绕爬虫所需知识展开,求精不求全。其中包括Python的数据结构、变量类型、循环和控制语句,以及如何编写一个完整的函数。有基础的老师可以跳过这一部分直接进入第二部分。

第1章 认识Python6小时)

1. 数据类型与使用环境

2. 条件与循环语句

3. 控制流

4. 编写并调用属于自己的函数

5. 异常处理

6. 布置作业


二、初识爬虫(9/19,6小时)

在这一部分中,我们将正式接触爬虫,我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据,我们不得不忽略网页精致的外观和编排,刻意绕开浏览器的帮助来分离和理解数据。页面的源代码里除了我们认识的文字,那些标签都有着怎样的含义?如何把网页内容“请”到我们的分析工具中来?爬取数据有怎样的规律可循?这些都是第二部分将要呈现的内容。

第1章作业讲解(0.5小时)

第2章 重新认识网络(2小时)

1. 什么是Web前端

2. HTML规范结构

3.认识导航树

第3章 创建爬虫(3.5小时)

1. 什么是爬虫

2. Python爬虫的环境搭建

3. 爬虫三部曲——获取、解析、保持

4. 小例子:创建第一个爬虫

5. 布置作业


三、页面解析(9/20-9/26,12小时)

在之前的课程中,我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页,但这其中大部分的内容是我们并不需要的。如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容?如何使用更简洁高效的方式达到目的?大名鼎鼎的“正则”究竟是什么?这些是4-6章要重点讲授的内容。

第3章作业讲解(0.5小时)


第4章 常规HTML解析(3.5小时)

1一个名叫心灵鸡汤的扩展库

2. 中文字符处理

3. 正则表达式

4. 抓取到的数据写入本地

案例解析指定内容的爬取


第5章 复杂页面数据爬取(4小时)

1.静态多页面解析及数据抓取                      

2. 动态HTML解析

3. POST请求数据与JOSN格式

4. 反爬虫与突破反爬虫

5. 多线程与多进程加速

案例解析动态爬虫抓取商品与评论信息

6. 布置作业并强调注意事项


第5章作业详解(1小时)


第6章 动态渲染页面的抓取(3小时)

1. 自动化测试库Selenium与无界面浏览器

2. 访问并获取页面html

3. 解析网页并抓取关键字相关内容

案例解析:基于搜索引擎的指定内容抓取



四、爬取结果的处(9/26,1.5小时)

一个长句中究竟包含了哪些有效信息?一条评价反映出客户怎样的态度?接下来的内容将介绍一些工具和方法,帮助我们控制或筛选进入视线的数据,为后续的数据分析做准备。

第7章 自然语言处理入门(1.5小时)

1. 获取文本语料

2. 加工原始文本

3. 从文本中提取信息

4. 基于NLP的情感分析

5. 调用自己的语料库

案例解析评论类内容的情感分析

五、总结(0.5小时)



优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

同一单位六人以上同时报名8折优惠;

以上优惠与学生价不叠加。



在线咨询:

尹老师

电话:010-53352991

QQ:42884447

WeChat:yinyinan888

尹老师微信二维码.png