近期专题培训 2024DID专题丨深度解析顶刊中的DID刊文趋势与模型应用
大数据,一个热的发烫、众人论调词眼。一波又一波新的资讯浪潮袭来,至于它到底有什么内涵、将会如何影响我们、又要把我们冲到哪里去……即便看过许多炫目的报导,晓得它有许许多多的应用实例,威力无穷,但对大多数人来说,不免都把巨量数据视为一种新颖的科技问题,是属于硬体配置或软体设计的技术问题,不是一般人能够驾驭的。
我们就好像在看一场精采的马戏团表演,看得好热闹,却看不出门道来。
而Hadoop大数据分析课程给你的就是 把握时代脉博,掌握大数据时代前沿。
能深入实际的项目案例进行大数据的实战开发;达到大数据分析师的理论和实战要求。
《CDA-Hadoop大数据分析师》第二期
课程介绍:
本课程以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。区别于普通的JAVA程序员,本课程的重点是培养基于Hadoop架构的大数据分析思想及架构设计,通过演示实际的大数据分析案例,使学员能在较短的时间内理解大数据分析的真实价值,掌握如何使用hadoop架构应用于大数据分析过程,使学员能有一个快速提升成为兼有理论和实战的大数据分析师,从而更好地适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势。从入门知识学起的课程体系设计和面向大数据分析师的培训理念,引导学员一步步深入学习,适合零基础学员从零学起。
讲师介绍:
培训内容目录:
(一)基础理论部分
1.数据分析基础
(1)数据分析过程概述
(2)概率论与数理统计介绍
(3)抽样估计与假设检验
(4)方差分析与回归分析
2.java基础
(1)JDK的安装配置,Java基本知识、数据类型以及基本语法
(2)Eclipse的编程入门
(3)面向对象的思想基本介绍,类、对象、接口、封装、继承
(4)Java的集合类——数组、Set、List、Map、Queue
(5)异常处理——CheckedException、Unchecked Exception,如何通过异常信息捕获错误
(6)Java的垃圾回收机制以及多线程简介
(7)Java的文件操作、包的概念及如何打包
(8)数据库基础知识及SQL语法
(9)基于servlet技术的B/S应用开发及代码实现案例详解
3.linux基础
(1)linux的介绍
(2)Linux入门:选择合适的Linux发行版、如何安装Linux
(3)linux操作系统命令及使用命令编辑文件
(4)Linux下SSH命令使用方法详解
(二)hadoop理论课程
1.hadoop安装配置及运行机制解析
该内容是大数据分析的环境搭建课程,偏重于上机操作,主要讲述基于unbuntu的hadoop的单机模式和伪分布模式安装和配置过程,以及在linux集群上安装和配置hadoop集群的过程。对于不熟悉的unbuntu等 linux操作系统的学员,课程中会通俗易懂地引导他们了解常用的命令,实现零基础的进阶。通过讲师手把手、面对面的交流,教会学员自己搭建一个真实的基于hadoop的大数据分析环境,并在三种环境下运行hadoop自带的小程序,引导学员了解数据分析的基本思想。主要内容包括:
(1)介绍分布式系统设计的基本思想
(2)介绍Hadoop 概念、版本、历史
(3)详细讲解Hadoop 单机、伪分布及集群模式的安装配置过程和内容
(4)使用蒙特卡罗法求π值的案例分析比较hadoop三种模式的运行效率,并剖析数据分析的基本思想
(5)介绍如何通过命令行和浏览器观察hadoop的运行状态
(6)介绍hadoop的安全模式
(7)介绍如何查看hadoop 运行的日志信息
2.Hadoop分布式文件系统深入剖析
对hadoop架构的分布式文件系统HADFS进行深入的分析,hdfs是hadoop架构的基础,它是hadoop的核心内容之一。主要的内容包括:
(1)介绍google的GoogleGFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
(2)HDFS的概念及设计
(3)Hdfs体系结构及运行机制详述
(4)NameNode、DataNode、SecondaryNameNode的作用及运行机制
(5)block 的划分原理、存储方式和配置文件
(6)hdfs的备份机制和文件管理机制
(7)HDFS文件系统的常用命令
(8)使用命令及JAVA语句操作hdfs中的文件
3.MapReduce理论及实战
(1)介绍google的MapReduce编程模型
(2)hadoop中的MapReduce工作原理
(3)通过演示单词计数程序,详细讲述mapreduce运行过程中类的调用过程
(4)详细讲述如何覆盖 Mapper 功能、如何覆盖 Reducer 功能。
(5)MapReducejob的生命周期中job提交、task分发和task执行
(6)MapReduce中block 的调度及作业分配机制
(7)基于MapReduce模型的wordcount运行详解
(8)基于MapReduce模型的三个初级案例:数据去重、数据排序和求平均成绩
(9) 基于MapReduce模型的高级案例,详细介绍如何在eclipse中编写MapReduce程序,打包成可在hadoop上运行的jar,并在集群上运行
4.hbase理论及实战
(1)Hbase简介,包括HBase的基础概念 、数据模型、存储模型
(2)hbase的伪分布和集群的安装及配置
(3)一个例子讲解hbase shell常用的操作命令
5.hadoop生态环境介绍
(1)ZooKeeper简介,包括ZooKeeper的安装、运行及示例
(2)Pig简介,包括Pig的安装、运行及示例
(3)Hive简介,包括Hive的安装、运行及示例
(4)sqoop简介,包括Sqoop介绍、命令、原理及流程
(三)大数据分析思想、工具及实战案例
1.大数据分析思想介绍
(1)大数据的时代背景
(2)大数据分析的思维转变
(3)几种典型的大数据架构分析
(4)大数据时代的数据分析思想的变革
2.Mahout,大数据分析的利器
Mahout 是 Apache SoftwareFoundation(ASF)旗下的一个开源项目,它通过和hadoop配合,实现在推荐、聚类和分类等领域中的大数据分析。
(1)Mahout的下载、安装与部署
(2)Mahout之分类算法:logstic算法(SGD)与朴素贝叶斯算法(new bayes)详解
(3)使用UCI经典数据集--20Newsgroups数据集进行朴素贝叶斯算法大数据分析之分类实战演练
(4)Mahout之聚类算法:Kmeans算法与canopy算法详解
(5)使用UCI经典数据集--质量管理数据集进行canopy算法和Kmeans算法的大数据分析之聚类实战演练
(6)Mahout之主题推荐算法:基于物品或用户的推荐算法
(7)使用基于物品的推荐算法实现基于大数据分析的电影推荐系统
3.RHadoop,R语言从小数据分析到大数据分析的化丽转身
(1)R语言简介
(2)安装并运行RHadoop
(3)RHadoop的逻辑结构
(4)Rhadoop实战案例—wordcout
4.三个真实的大数据分析案例
(1)人大经济论坛日志分析,介绍日志分析的相关知识,以及人大经济论坛现在的日志管理现状,设计并实现适合人大经济论坛的基于hadoop架构的大数据日志分析系统,手动编写日志分析MapReduce程序,并在集群环境下运行自已的jar文件,实现从零起步到hadoop架构,直到实际的大数据分析真实案例的飞跃。
(2)基于旅游点评网站的文本挖掘,介绍文本挖掘的相关知识,使用网页爬虫抓取旅游点评网站的实际数据,实现数据的清洗和预处理,制定定时更新机制,并尝试使用手动编程实现MapReduce程序,在hdfs上运行和处理采集的数据,真正参与基于实际项目的大数据分析过程。
(3)基于Mahout的人大经济论坛主题推荐,介绍推荐系统和汉字主题推荐涉及的文本挖掘等相关知识,以及人大经济论坛主题推荐的项目背景,项目的需求分析以及基于hadoop+Mahout算法模型和系统架构设计解析,利用Mahout提供的主题推荐算法解决人大经济论坛的主题推荐。