Hadoop大数据平台开发与案例分析培训课程特色与背景
课程介绍
1. 需求理解
Hadoop 设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop 一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。
对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好地了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop 平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。本课程将全面介绍Hadoop平台开发和运维的各项技术,对学员使用该项技术具有很高的应用价值。
2. 培训课程架构与设计思路
(1)培训架构:
本课程分为三个主要部分:
第一部分:重点讲述大数据技术在的应用,使学员对大数据技术的广泛应用有清晰的认识,在这环节当中会重点介绍Hadoop技术在整个大数据技术应用中的重要地位和应用情况。
第二部分:具体对hadoop技术进行模块化分拆,从大数据文件存储系统技术和分布式文件系统平台及其应用谈起,介绍Hadoop技术各主要应用工具和方法,以及在运维维护当中的主流做法,使学员全面了解和掌握Hadoop技术的精华。
第三部分:重点剖析大数据的应用案例,使学员在案例当中对该项技术有更深入的感观印象
(2)设计思路:
本课程采用模块化教学方法,以案例分析为主线,由浅入深、循序渐进、由理论到实践操作进行设计。
(3)与企业的贴合点:
本课程结合企业转型发展及大数据发展战略,围绕企业大数据业务及行业应用市场拓展发展目标,重点讲授Hadoop的应用技术,提升企业IT技术人员的开发和运维能力,有很强的贴合度。
培训目标
掌握大数据处理平台(Hadoop、Spark、Storm)技术架构、以及平台的安装部署、运维配置、应用开发;掌握主流大数据Hadoop平台和Spark实时处理平台的技术架构和实际应用;利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用;讲解Hadoop生态系统组件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理技术。
颁发证书
参加相关培训并通过考试的学员,可以获得:
工业和信息化部颁发的-《大数据开发高级工程师证书》。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。
课程大纲
(1)课程框架
时间
培训内容
教学方式
第一天
上午
第一部分:移动互联网、大数据、云计算相关技术介绍
第二部分:大数据的挑战和发展方向
理论讲授+案例分析
下午
第三部分:大数据文件存储系统技术和分布式文件系统平台及其应用
第四部分:Hadoop文件系统HDFS最佳实战
理论讲授+案例分析+小组讨论
第二天
上午
第五部分:Hadoop运维管理与性能调优
第六部分:NOSQL数据库Hbase与Redis
理论讲授+案例分析+实战演练
下午
第七部分:类SQL语句工具——Hive
第八部分:数据挖掘SPARK建模基础介绍
理论讲授+案例分析+实战演练
第三天
上午
第九部分:Kafka基础介绍
第十部分:大数据典型应用与开发案例分析:互联网数据运营
理论讲授+案例分析
下午
第十一部分:当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例
第十二部分:课程总结与问题答疑
评估培训
理论讲授+案例分析+小组讨论
详细培训内容介绍
课程模块
课程主题
主要内容及案例和演示
模块一
移动互联网、大数据、云计算相关技术介绍
1、 数据中心与云计算技术应用
2、 智慧城市与云计算技术应用
3、 移动互联网、大数据与云计算关联技术
4、 移动云计算的生态系统及产业链
5、 大数据技术在运营商、金融业、银行业、电子商务行业、零售业、制造业、政务信息化、互联网、教育信息化等行业中的应用实践
6、 国内外主流的大数据解决方案介绍
7、 当前大数据解决方案与传统数据库方案的剖析比较
8、 Cloudera Hadoop 大数据平台方案剖析
9、 开源的大数据生态系统平台剖析
模块二
大数据的挑战和发展方向
1、 大数据时代的挑战
Ø 战略决策能力
Ø 技术开发和数据处理能力
Ø 组织和运营能力
2、 大数据时代的发展方向
Ø 云计算是基础设施架构
Ø 大数据是灵魂资产
Ø 分析、挖掘是手段
Ø 发现和预测是最终目标
3、 大数据挖掘在各行业应用情况
Ø 电信行业应用及案例分析
Ø 互联网行业应用及案例分析
Ø 金融行业应用及案例研究
Ø 销售行业应用案例分析
模块三
大数据文件存储系统技术和分布式文件系统平台及其应用
1、 Hadoop的发展历程
Ø Hadoop大数据平台架构
Ø 基于Hadoop平台的PB级大数据存储管理与分析处理的工作原理与机制
Ø Hadoop 的核心组件剖析
2、 分布式文件系统HDFS
Ø 概述、功能、作用、优势
Ø 应用范畴、应用现状
Ø 发展趋势
3、 分布式文件系统HDFS架构及原理
Ø 核心关键技术
Ø 设计精髓
Ø 基本工作原理
Ø 系统架构
Ø 文件存储模式
Ø 工作机制
Ø 存储扩容与吞吐性能扩展
4、 分布式文件系统HDFS操作
Ø SHELL命令操作
Ø I/O流式操作
Ø 文件数据读取、写入、追加、删除
Ø 文件状态查询
Ø 数据块分布机制
Ø 数据同步与一致性
Ø 元数据管理技术
Ø 主节点与从节点工作机制
Ø 大数据负载均衡技术
Ø HDFS大数据存储集群管理技术
5、 Hadoop生态系统组件
Ø Storm
Ø HDFS
Ø MapReduce
Ø HIVE
Ø HBase
Ø Spark
Ø GraphX
Ø MLib
Ø Shark
模块四
Hadoop文件系统HDFS最佳实战
1、 HDFS的设计
2、 HDFS的概念
Ø 数据块
Ø namenode和datanode
Ø 联邦HDFS
Ø HDFS的高可用性
3、 命令行接口
4、 Hadoop文件系统
5、 Java接口
Ø 从Hadoop URL读取数据
Ø 通过FileSystem API读取数据
Ø 写入数据
Ø 目录
Ø 查询文件系统
Ø 删除数据
6、 数据流
Ø 剖析文件读取
Ø 剖析文件写入
Ø 一致模型
7、 通过Flume和Sqoop导入数据
8、 通过distcp并行复制
9、 Hadoop存档
Ø 使用Hadoop存档工具
Ø 不足
模块五
Hadoop运维管理与性能调优
1、 第二代大数据处理框架
Ø Yarn的工作原理及
Ø DAG并行执行机制
Ø Yarn大数据分析处理案例分析
Ø Yarn 框架并行应用程序实践
2、 集群配置管理
Ø Hadoop集群配置
Ø Hadoop性能调优与参数配置
Ø Hadoop机架感知策略与配置
Ø Hadoop压缩机制
Ø Hadoop任务负载均衡
Ø Hadoop 集群维护
Ø Hadoop监控管理
3、 HDFS的静态调优技巧
Ø HDFS 的高吞吐量I/O性能调优技巧
Ø MapReduce/Yarn的并行处理性能调优技巧
Ø Hadoop集群的运行故障剖析,以及解决方案
Ø 基于Hadoop大数据应用程序的性能瓶颈剖析与提
Ø Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置
Ø Hadoop运维管理监控系统Ambari平台的安装部配置
Ø Hadoop 集群运维系统 Ganglia, Nagios的安装部署与应用配置
模块六
NOSQL数据库Hbase与Redis
1、 NOSQL基础
Ø CAP理论
Ø Base与ACID
Ø NOSQL数据库存储类型
键值存储
列存储
文档存储
图形存储
2、 HBase分布式数据基础
3、 安装Hbase
4、 Hbase应用
Ø HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序
Ø HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则
Ø HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优
Ø HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
Ø HBase表设计与数据操作以及数据库管理操作
Ø HBase集群的安装部署、参数配置和性能优化
5、 HBase分布式数据库简介、发展历程、应用场景、工作原理、以及应用优势与不足之处
Ø HBase分布式数据库集群的主从式平台架构和关键技术剖析
Ø HBase伪分布式和物理集群分布式的控制与运行配置
Ø HBase从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优
Ø HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构剖析
Ø HBase表设计与数据操作以及数据库管理操作
Ø HBase集群的安装部署、参数配置和性能优化
Ø ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战
Ø ZooKeeper集群的原理架构,以及应用配置
6、 Redis内存数据库介绍,以及业界应用案例
Ø Redis内存数据库集群架构以及核心技术剖析
Ø Redis 集群的安装部署与应用开发实战
模块七
类SQL语句工具——Hive
1、 安装Hive
2、 示例
3、 运行Hive
Ø 配置Hive
Ø Hive服务
Ø Metastore
4、 Hive与传统数据库相比
Ø 读时模式vs.写时模式
Ø 更新、事务和索引
5、 HiveQL
Ø 数据类型
Ø 操作与函数
6、 表
Ø 托管表和外部表
Ø 分区和桶
Ø 存储格式
Ø 导入数据
Ø 表的修改
Ø 表的丢弃
7、 查询数据
Ø 排序和聚集
Ø MapReduce脚本
Ø 连接
Ø 子查询
Ø 视图
8、 用户定义函数
Ø 写UDF
Ø 写UDAF
模块八
数据挖掘SPARK建模基础介绍
1、 Spark简介
Ø Spark是什么
Ø Spark生态系统BDAS
2、 Spark架构
Ø Spark分布式架构与单机多核架构的异同
3、 Spark集群的安装与部署
Ø Spark的安装与部署
Ø Spark集群初试
4、 Spark硬件配置
Ø Spark硬件
Ø Spark硬件配置流程
模块九
Kafka基础介绍
1、 Kafka介绍
2、 kafka体系结构
3、 kafka设计理念简介
4、 kafka通信协议
5、 kafka的伪分布安装、集群安装
6、 kafka的shell操作、java操作
7、 kafka设计理念*
8、 kafka producer和consumer开发
9、 Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战
10、 Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
11、 Hadoop与DBMS之间数据交互工具Sqoop的应用实践,
12、 Sqoop导入导出数据以及Sqoop集群部署与配置
13、 Kettle 集群的平台架构、核心技术、部署配置和应用实战
14、 利用Sqoop实现 MySQL 与 Hadoop 集群之间
模块十
大数据典型应用与开发案例分析:互联网数据运营
1、 案例1:贵州数据交易中心
Ø 交易所交易形式:电子交易
Ø 交易所服务:大数据交易、大数据清洗建模分析、大数据定向采购、大数据平台技术开发
Ø 大数据交易安全性探讨分析
Ø 数据交易中心商业模式探讨分析
2、 案例2:大数据应用案例:公共交通线路的智能规划
Ø UrbanInsights:为公交公司提供基于订阅访问的大数据工具以及大数据咨询服务
Ø Urban Insights数据源、数据收集、数据仓库、数据分析——设计运营线路
Ø Urban Insights通过互联网数据的运营
3、 讨论:浙江移动大数据应用与开发方向
模块十一
当前数据中心的改造和转换分析-以国内外运营商、互联网公司为例
1、 流商业大数据解决方案比较
2、 主流开源云计算系统比较
3、 国内外代表性大数据平台比较
4、 各厂商最新的大数据产品介绍
5、 案例分析
Ø Facebook的SNS平台应用
Ø Google的搜索引擎应用
Ø Rackspace的日志处理
Ø Verizon成立精准市场营销部
Ø TelefonicaDynamicInsights推出的名为“智慧足迹”的商业服务
Ø 中国联通的“移动通信用户上网记录集中查询与分析支撑系统”
模块十二
课程总结与问题答疑
课程主讲
阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程对象
业务支撑建设维护室、业务维护室、经营分析室人员;网络部、网管中心、网优中心从事大数据相关工作的人员
备 注
课程费用:6800元/人(含教材、培训费、考证费以及学习用具等费用)
常年开班,获取最新开班时间或内训报价,咨询:400-061-6586