课程介绍
现今是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark Hadoo系统基础知识,概念及架构,Spark Hadoo实战技巧,Spark、Hadoo经典案例等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员;
学员应具备:了解Linux系统及相关语言环境;
课程收益
帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;
理解Spark、Hadoo系统适用的场景;
掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadook集群,满足生产环境的标准;
知识概要
1、大数据整体体解决方案架构介绍 2、Cloudera CDH安装及集群『介绍 3、Kafka的使用场景 4、HDFS HIVE IMPALA组件 5、HIVE、IMPALA区别:特性不同点,架构不同特点 6、Zookeeper组件 7、Azkaban、Yarn 调度资源协调 8、yarn架构组件(Resourcemanager、NodeManager、ApplicationMaster) 9、yarn作业调度流程 10、大数据安全管理 11、Hadoop安全机制Kerberos。
课程大纲
大数据整体体解决方案、架构介绍、流处理、批处理
硬件选型,操作系统选型
开源软件,Hadoop生态软件
大数据组件(开发语言介绍)
Cloudera CDH安装及集群介绍
Cloudera CDH 安装
Hadoop集群介绍,Hadoop集群使用
HDFS分布式文件系统介绍
Kafka的使用场景
Kakfa的设计思想,Kafka文件存储机制
持久化\负载均衡\Topic模型
消息传输一致性\分布式
Leader的选择\集群分区
生产者消费者配置
案例:Kafka从flume获取消息,实现传输
flume+sqoop介绍及开发实例
flume实现数据采集流程
flume agent配置,flume sink配置,flume 数据过滤
案例(1): 使用flume动态采集日志
Sqoop功能及软件结构
从关系型数据库导入数据到HDFS,从HDFS导入数据到关系型数据库
案例: 从HDFS导入数据到MySQL数据库
案例: 从MySQL数据库导入数据到HDFS
Hadoop集群搭建、Spark集群部署及测试
Spark交互〗式命令行
如何使用Spark交互式命令行、理解Spark任务提交流程、执行流程
如何通过WebUI查看任何执行状态
spark streaming运行原理spark 生态及运行原理
集群模式
Spark工作机制
RDD弹性分布式数据集@ ,介绍RDD实现原理
理解什么是Action和Transformation,理解窄依赖与宽依赖
Spark核心概念之RDD
RDD函数
Spark核心概念之Shuffle
Spark Job执行原理分析、shuffle操作解析
Spark核心概念之Cache
Spark广播变量与累加器、Cache与checkpoint问题
Spark多语言编程
Spark SQL组件、架构
DataFrame、SparkSQL运行原理
Spark SQL基础应用
Spark Streaming运行原理、DStream
DStream 常用函数
Machine Learning On Spark简介、常用数据结构
Spark 资源调优
案例:spark streaming数据处理
HDFS HIVE IMPALA组件
DHFS分布式存储特性
DHFS访问方式
HDFS优化方案
HIVE IMPALA查询
共同点:如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等
HIVE、IMPALA区别:特性不同点,架构不同特点
Zookeeper组件
Zookeeper应用
Zookeeper注册中心管理
Zookeeper配置与协调
实验:HDFS存取数据、HIVE、IMPALA实现数据分析和报表
Azkaban、Yarn 调度资源协调
Azkaban的适用场景
Azkaban特点
Azkaban的架构
配置文件
启动executor服务器
启动web服务器
案例:多job工作流案例
yarn架构组件(Resourcemanager\NodeManager\ApplicationMaster)
yarn作业调度流程
综合案例
Flume实现日志采集+kafka(消息队列、缓存)+spark streaming(数据处理)+数据库/DHFS
sqoop 导入关系型数据库,实现hive impala查询
大数据安全管理
Apache Sentry
Hadoop安全机制Kerberos
认证过程
无认证考试
开班信息
暂无开班信息