BD222:大数据平台Spark深入实践

线下课堂时间:4 天实战演练面授
  • 【北京】    2017/8/15、16、17、18周末班
  • 【广州】    2017/9/9、10、16、17周末班
  • 【深圳】    2017/11/4、5、11、12周末班
预约试听
课程介绍
适用对象:大数据处理的数据中心运行、规划、设计负责人; Spark企业级应用、整合项目的成员、负责人、开发人员。
学习收获:Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。本课程深入学习Spark技术,通过本课程的学习,可以掌握: 1. 掌握Spark 部署中常见的方法与注意事项; 2. 掌握Spark集群规划方法及配置优化方法; 3. 掌握Spark 原理 RDD,PariRDD; 4. 掌握Spark读取与存储数据的方法; 5. 掌握Spark SQL 使用; 6. 掌握Spark Streaming 原理与使用及优化办法。
详细大纲
1 大数据基础案例分享与Spark平台介绍及环境部署安装
1.1 Spark的重要扩展
1.1.1 Spark SQL和DataFrame
1.1.2 Spark Streaming
1.1.3 Spark MLlib和ML
1.1.4 GraphX
1.1.5 SparkR
1.2 运行Spark应用程序
1.2.1 Local模式运行Spark应用程序
1.2.2 Standalone模式运行Spark应用程序
1.2.3 YARN模式运行Spark
1.2.4 应用程序提交和参数传递
1.3 Spark程序开发
1.3.1 使用Spark Shell编写程序
1.3.2 构建Spark的开发环境
1.3.3 独立应用程序编程
1.4 创建RDD
1.4.1 集合(数组)创建RDD
1.4.2 存储创建RDD
1.5 RDD操作
1.5.1 转换操作 :flatmap,map等区别
1.5.2 执行操作 :count ,Reduce等
1.5.3 控制操作
1.6 共享变量
1.6.1 广播变量
1.6.2 累加器
1.7 Pair RDDs
1.7.1 Pair RDDs独有的Transformations
1.7.2 Pair RDDs独有的Actions
1.7.3 使用Partition进行优化
1.8 Spark 读取数据练习
1.8.1 读写各种类型的文件
1.8.2 结构化读写Hive与Json
1.8.3 读写MySQL与HBase
1.9 作业执行解析
1.9.1 基本概念
1.9.2 作业执行流程
1.9.3 运行时环境
1.9.4 应用程序运行实例
2 基于Spark技术的大数据平台规划
2.1 场景1:架构简化 – 混合式到单一架构
2.2 场景2:自主研发ETL – 支持批量和实时接口
2.3 场景3:现有业务系统 - 改造和对比
2.4 场景4:数据挖掘应用 – 增量式
2.5 上机演练
3 Spark SQL与DataFrame
3.1 概述
3.1.1 Spark SQL 发展
3.1.2 Park SQL 架构
3.1.3 Spark SQL 特点
3.1.4 Spark SQL 性能
3.2 DataFrame
3.2.1 DataFrame和RDD的区别
3.2.2 创建DataFrame
3.2.3 DataFrame 操作
3.2.4 RDD转化为DataFrame
3.3 数据源
3.3.1 加载保存操作
3.3.2 Parquet 文件
3.3.3 JSON 数据集
3.3.4 Hive 表
3.3.5 通过JDBC 连接数据库
3.3.6 多数据源整合查询的小例子
3.4 分布式的SQL Engine
3.4.1 运行Thrift JDBC/ODBC 服务
3.4.2 运行 Spark SQL CLI
3.5 性能调优
3.5.1 缓存数据
3.5.2 调优参数
3.5.3 增加并行度
3.6 数据类型
3.7 Spark 1.6 DataSet API说明
3.8 上机演练
4 深入了解Spark Streaming
4.1 基础知识
4.1.1 Spark Streaming工作原理
4.1.2 DStream编程模型
4.2 DStream操作
4.2.1 Input DStream
4.2.2 DStream转换操作
4.2.3 DStream状态操作
4.2.4 DStream输出操作
4.2.5 缓存及持久化
4.2.6 检查点
4.3 性能调优
4.3.1 优化运行时间
4.3.2 设置合适的批次大小
4.3.3 优化内存使用
4.4 容错处理
4.4.1 文件输入源
4.4.2 基于Receiver的输入源
4.4.3 输出操作
4.5 Spark Streaming监控页面说明
4.6 基于预写日志的数据恢复原理
4.7 Kafka与Spark Streaming的整合
4.8 Spark sql 整合Spark Streaming
4.9 上机演练
5 Spark MLlib知识点整理
5.1 Vector
5.2 LabeledPoint
5.3 Rating
5.4 特征转化
5.4.1 TF-IDF
5.5 MLlib统计
5.5.1 计算由向量组成的RDD的统计性综述
5.5.2 计算由向量组成的RDD中的列间的相关矩阵
5.5.3 计算两个由浮点值组成的RDD的相关矩阵
5.5.4 计算由LabeledPoint对象组成的RDD中每个特征与标签的皮卡森独立性测试结果
6 Spark Streaming 结合聚类算法实现实时聚类分析
7 Spark Streaming 实现大数据实时推荐 ALS算法
8 Spark MLlib 面对海量数据时候的优化方法
8.1 上机演练
9 图的基本概念
9.1 图论发展简史
9.2 图的概念
9.3 图的运算
9.3.1 并与和
9.3.2 笛卡儿积
9.3.3 超立方体
9.3.4 网格
9.3.5 边收缩
9.3.6 线图
9.4 有向图
9.5 图的矩阵表示
9.6 距离与连通性
9.6.1 图的距离
9.6.2 图的连通性
9.6.3 连通图
9.6.4 最短路算法
10 GraphX
10.1 Spark GraphX初见
10.1.1 案例:社交网络中人与人之间关系链
10.1.2 案例:淘宝对Spark GraphX的大规模使用
10.1.3 Spark GraphX 概念
10.1.4 Spark GraphX 原理及架构
10.1.5 Spark GraphX 优势
10.2 Spark GraphX核心Table operator和Graph Operator
10.3 Spark GraphX核心Vertices、edges、triplets
10.4 构建graph
10.5 上机演练
课程评价

课程评价({{EvaluationTotal}})

课程满意度

评价

您还没有给课程评分哦

满意度

    追加评价:

课程咨询
内容:

您还没有填写内容!

暂无问答,赶紧去提问吧
{{item.AnswerState==1?"已解决":"未解决"}}
{{item.Content}}
{{item.StudentAskTime}}
{{itemanswer.UserName}}
{{itemanswer.Content}}
{{itemanswer.StudentAskTime}}
同类课程推荐 more
免费大讲堂 more
原创文章 more

您好! 欢迎来到学领未来 !

学领未来提供线上及线下的学习服务,根据您的位置,为您推荐最近的线下培训地点 ,你选择: