Python爬虫学术应用
“大数据”概念的不断升温,使得爬虫这项看似非常复杂、门槛极高的技术越来越多地出现在我们的视野里。越来越多的人开始接触、关注和学习爬虫。因为爬虫能够帮助我们获取大量有价值的数据,比如商品的销量、评价和消费人群,比如股票的名称、成交量和交易信息。
在了解爬虫的过程中,由于对这项技术缺乏系统了解,“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程,有的人计划从软件的基本语法入门,也有人打算弄懂了网页结构再来……在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握规律和方法的确非常重要。
这一门课的目的,就是希望能够通过通俗易懂的讲解,令没有编程基础的研究人员通过学习,能够举一反三学,最终掌握熟练爬取主流网站内容的技能,并整理成为可为后续分析提供依据的数据资料。因而,这门课剔除了不必要的分支功能学习,只有爬虫。对,只有爬虫。在这门课结束之后,我们能够爬取微博、豆瓣、知乎、猫眼、淘宝、苏宁、携程、股票,还有Zhi网……
为了能够完整地呈现Python数据采集的方法和过程,这门课将分为四大部分——
一、Python快速入门(6小时)
在写爬虫之前,我们需要了解一些有关工具的基础知识。所以,第一天的授课内容是关于Python基础的,是后续课程中读懂并编写爬虫程序的铺垫。这部分内容将紧紧围绕爬虫所需知识展开,求精不求全。其中包括Python的数据结构、变量类型、循环和控制语句,以及如何编写一个完整的函数。有基础的老师可以跳过这一部分直接进入第二部分。
第1章 认识Python(6小时)
1. 数据类型与使用环境
2. 条件与循环语句
3. 控制流
4. 编写并调用属于自己的函数
5. 异常处理
6. 布置作业
二、初识爬虫(6小时)
在这一部分中,我们将正式接触爬虫,我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据,我们不得不忽略网页精致的外观和编排,刻意绕开浏览器的帮助来分离和理解数据。页面的源代码里除了我们认识的文字,那些标签都有着怎样的含义?如何把网页内容“请”到我们的分析工具中来?爬取数据有怎样的规律可循?这些都是第二部分将要呈现的内容。
第1章作业讲解(0.5小时)
第2章 重新认识网络(2小时)
1. 什么是Web前端
2. HTML的规范结构
3.认识导航树
第3章 创建爬虫(3.5小时)
1. 什么是爬虫
2. Python爬虫的环境搭建
3. 爬虫三部曲——获取、解析、保持
4. 小例子:创建第一个爬虫
5. 布置作业
三、页面解析(12小时)
在之前的课程中,我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页,但这其中大部分的内容是我们并不需要的。如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容?如何使用更简洁高效的方式达到目的?大名鼎鼎的“正则”究竟是什么?这些是4-6章要重点讲授的内容。
第3章作业讲解(0.5小时)
第4章 常规HTML解析(3.5小时)
1. 一个名叫“心灵鸡汤”的扩展库
2. 中文字符处理
3. 正则表达式
4. 抓取到的数据写入本地
案例解析:指定内容的爬取
第5章 复杂页面数据爬取(4小时)
1.静态多页面解析及数据抓取
2. 动态HTML解析
3. POST请求数据与JOSN格式
4. 反爬虫与突破反爬虫
5. 多线程与多进程加速
案例解析:动态爬虫抓取商品与评论信息
6. 布置作业并强调注意事项
第5章作业详解(1小时)
第6章 动态渲染页面的抓取(3小时)
1. 自动化测试库Selenium与无界面浏览器
2. 访问并获取页面html
3. 解析网页并抓取关键字相关内容
案例解析:基于搜索引擎的指定内容抓取
四、爬取结果的处(1.5小时)
一个长句中究竟包含了哪些有效信息?一条评价反映出客户怎样的态度?接下来的内容将介绍一些工具和方法,帮助我们控制或筛选进入视线的数据,为后续的数据分析做准备。
第7章 自然语言处理入门(1.5小时)
1. 获取文本语料
2. 加工原始文本
3. 从文本中提取信息
4. 基于NLP的情感分析
5. 调用自己的语料库
案例解析:评论类内容的情感分析
五、总结(0.5小时)
优惠:
现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;
同一单位六人以上同时报名8折优惠;
以上优惠与学生价不叠加。
在线咨询:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu