培训目标 1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、机器学习的常用算法、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。 2.本课程强调主流的大数据分析挖掘
相关内容导读“分析挖掘”
大数据分析挖掘与可视化最佳实践培训班(面授/在线) 昆明 2023/4/25(3天)
大数据分析与可视化技术应用实战培训班(在线)课程,旨在重点讲解数据分析实战;数据挖掘理论及核心技术;大数据算法原理及案例实现;Python应用实战;理论与实践相结合、案例分析与行业应用穿插进行;专家精彩内容解析、学员专题讨论、分组研究;通过全面知识理解、专题技能和实践结合的授课方式。
算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop、spark大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。。 3.让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。 课程简介 大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务 网 站、搜索引擎、社交网 站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。 本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型中,结合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。 结合业界使用最广泛的主流大数据平台技术,重点剖析基于大数据分析算法与BI技术应用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系统,以及电商(或内容)推荐系统引擎。 本课程基本的实践环境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。 学员需要准备的电脑最好是i7三代及以上CPU,8GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。 本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
详细大纲与培训内容
两个完整的项目任务和实践案例(重点) | 1.日志分析建模与日志挖掘项目实践 a)Hadoop,Spark,并结合ELK技术构建日志分析系统和日志数据仓库 b)互联网微博日志分析系统项目 2.推荐系统项目实践 a)电影数据分析与个性化推荐关联分析项目 b)电商购物篮分析项目 Hadoop,Spark,可结合Oryx分布式集群在个性化推荐和精准营销项目。 | 项目的阶段性步骤贯穿到三天的培训过程中,第三天完成整个项目的原型 |
课程大纲
时间 | 内容提要 | 授课详细内容 | 实践训练 |
第一天 | 业界主流的数据仓库工具和大数据分析挖掘工具 | 1. 业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案 2. 业界数据仓库与数据分析挖掘平台软件工具 3. Hadoop数据仓库工具Hive 4. Spark实时数据仓库工具SparkSQL 5. Hadoop数据分析挖掘工具Mahout 6. Spark机器学习与数据分析挖掘工具MLlib 7. 大数据分析挖掘项目的实施步骤 | 配置数据仓库工具Hadoop Hive和SparkSQL 部署数据分析挖掘工具Hadoop Mahout和Spark MLlib |
大数据分析挖掘项目的数据集成操作训练 | 1. 日志数据解析和导入导出到数据仓库的操作训练 2. 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 3. 数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库 4. 同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用 5. 去除噪声 | 项目数据集加载ETL到Hadoop Hive数据仓库并建立多维模型 | |
基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模应用实践 | 6. 基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 7. Hive数据仓库集群的平台体系结构、核心技术剖析 8. Hive Server的工作原理、机制与应用 9. Hive数据仓库集群的安装部署与配置优化 10. Hive应用开发技巧 11. Hive SQL剖析与应用实践 12. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 13. Hive数据仓库报表设计 14. 将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问 | 利用HIVE构建大型数据仓库项目的操作训练实践 | |
Spark大数据分析挖掘平台实践操作训练 | 15. Spark大数据分析挖掘平台的部署配置 16. Spark数据分析库MLlib的开发部署 17. Spark数据分析挖掘示例操作,从Hive表中读取数据并在分布式内存中运行 | ||
第二天 | 聚类分析建模与挖掘算法的实现原理和技术应用 | 18. 聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括: a) Canopy聚类(canopy clustering) b) K均值算法(K-means clustering) c) 模糊K均值(Fuzzy K-means clustering) d) EM聚类,即期望最大化聚类(Expectation Maximization) e) 以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 19. Spark聚类分析算法程序示例 | 基于Spark MLlib的聚类分析算法,实现日志数据集中的用户聚类 |
分类分析建模与挖掘算法的实现原理和技术应用 | 20. 分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括: f) Spark决策树算法实现 g) 逻辑回归算法(logistics regression) h) 贝叶斯算法(Bayesian与Cbeyes) i) 支持向量机(Support vector machine) j) 以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。 21. Spark客户资料分析与给用户贴标签的程序示例 22. Spark实现给商品贴标签的程序示例 23. Spark实现用户行为的自动标签和深度技术 | 基于Spark MLlib的分类分析算法模型与应用操作 | |
关联分析建模与挖掘算法的实现原理和技术应用 | 24. 预测、推荐分析建模与算法原理及其在Spark MLlib中的实现与应用,包括: k) Spark频繁模式挖掘算法(parallel FP Growth Algorithm)应用 l) Spark关联规则挖掘(Apriori)算法及其应用 m) 以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 25. Spark关联分析程序示例 | 基于Spark MLlib的关联分析操作 | |
第三天 | 推荐分析挖掘模型与算法技术应用 | 26. 推荐算法原理及其在Spark MLlib中的实现与应用,包括: a) Spark协同过滤算法程序示例 b) Item-based协同过滤与推荐 c) User-based协同过滤与推荐 d) 交叉销售推荐模型及其实现 | 推荐分析实现步骤与操作(重点) |
回归分析模型与预测算法 | 27. 利用线性回归(多元回归)实现访问量预测 28. 利用非线性回归预测成交量和访问量的关系 29. 基于R+Spark实现回归分析模型及其应用操作 30. Spark回归程序实现异常点检测的程序示例 | 回归分析预测操作例子 | |
图关系建模与分析挖掘及其链接分析和社交分析操作 | 31. 利用Spark GraphX实现网页链接分析,计算网页重要性排名 32. 实现信息传播的社交关系传递分析,互联网用户的行为关系分析任务的操作训练 | 图数据的分析挖掘操作,实现微博数据集的社交网络建模与关系分析 | |
神经网络与深度学习算法模型及其应用实践 | 33. 神经网络算法Neural Network的实现方法和挖掘模型应用 34. 基于人工神经网络的深度学习的训练过程 a) 传统神经网络的训练方法 b) Deep Learning的训练方法 35. 深度学习的常用模型和方法 a) CNN(Convolutional Neural Network)卷积神经网络 b) RNN(Recurrent Neural Network)循环神经网络模型 c) Restricted Boltzmann Machine(RBM)限制波尔兹曼机 36. 基于Spark的深度学习算法模型库的应用程序示例 | 基于Spark或TensorFlow神经网络深度学习库实现文本与图片数据挖掘 | |
项目实践 | 37. 日志分析系统与日志挖掘项目实践 a) Hadoop,Spark,ELK技术构建日志数据仓库 b) 互联网微博日志分析系统项目 38. 推荐系统项目实践 a) 电影数据分析与个性化推荐关联分析项目 | 项目数据集和详细的实验指导手册由讲师提供 | |
培训总结 | 39. 项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能 | 讨论交流 | |
第四天 | 学员考试与业界交流 |
课程主讲
周老师
中国科学院通信与信息系统专业博士。北京邮电大学移动互联网与信息化实验室特聘研究员、对外经贸大学信息学院特聘兼职教师、中国移动集团高级培训讲师,长期从事大数据、4G、移动互联网安全、管理及大数据精确营销等研究方向。国内顶级信息系统架构师,金牌讲师,技术顾问,移动开发专家。拥有丰富的通信信息系统设计、开发经验及培训行业经验,先后为全国超过15家省移动公司,超过30家地市移动公司有过项目开发合作及授课,担任多个大型通信项目的总师。
张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
课程对象
1.大数据分析应用开发工程师 2.大数据分析项目的规划咨询管理人员 3.大数据分析项目的IT项目高管人员 4.大数据分析与挖掘处理算法应用工程师 5.大数据分析集群运维工程师 6.大数据分析项目的售前和售后技术支持服务人员
备注
课程费用: 7800元/人(含培训费、资料费、考试费、A类证书费) 9800元/人(含培训费、资料费、考试费、B类证书费) A类:工业和信息化部全国网络与信息技术考试管理中心颁发的-《Python大数据技术证书》。该证书可作为专业技术人员职业能力考核的证明。 B类:工业和信息化部教育与考试中心颁发的-《大数据分析师证书》,该证书是官方唯一认证证书,同时也可以招标加分、岗位提升加薪、个人能力认证的证明。
常年开班,获取最新开班时间或内训报价,咨询:400-061-6586