BD231:大数据挖掘与分析

开班计划时间:24 小时
上课地点 上课方式 预计上课时间
北京 线下面授
2019/1/17、18、19、20
上海 线下面授
2019/1/9、10、11、12
广州 线下面授
2019/3/15、16、17
预约试听 马上咨询
课程介绍
适用对象:对大数分布式存分析等感兴趣的朋友; Java/python/c等任意一门编程语言的开发者; 大型网电商网站等运维人员; 大数据从业者; 熟悉Hadoop生态体系,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友; 系统架构系统分析高级程序资深开发人员; 牵涉到大数据处理的数据中心运规设计负责人; 政府机关,金融保移动互联网等大数据单位的负责人; 高科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员; 数据仓库管理人建模人员,分析和开发人系统管理人数据库管理人员以及对数据仓库感兴趣的其他人员;
学习收获:(1)全面介绍了数据挖掘的标准流程,数据预处理,数据挖掘方法,数据挖掘模型,模型评估,模型参数优化,等等,使得学员掌握数据挖掘的方模工具。 (2)通过本课程的学习,达到如下目的: (3)了解数据分析与数据挖掘的基本知识,理解大数据思维方式。 (4)掌握数据挖掘的基本过程和步骤,掌握数据挖掘的思路和框架。 (5)能够理解分析模型原理,掌握模型应用场景,能够利用模型解决复杂的商业问题。 (6)掌握常用的数据模型,能够根据商业问题选择合适的分析模型。 (7)熟悉SPSS基本操作,掌握分析操作,能够解读分析结果,并转化为业务。
详细大纲
1 大数据基础与基本平台介绍
1.1 大数据技术背景
1.1.1 大数据问题的提出
1.1.2 大数据的解决方案
1.1.3 数据治理
1.1.4 Hadoop简介
1.2 hadoop大数据平台搭建
1.2.1 Hadoop集群原理
1.2.2 单节点集群的搭建
1.2.3 多节点集群
1.3 使用HDFS
1.3.1 HDFS WEB后台
1.3.2 Hadoop shell指令
1.3.3 HDFS开发接口
1.3.4 WEB HDFS接口
1.4 MapReduce计算框架
1.4.1 MapReduce编程模型
1.4.2 WordCount实验
1.4.3 MapReduce应用案例
1.4.4 使用YARN计算管理框架
2 大数据的数据仓库
2.1 数据仓库的建立
2.1.1 数据仓库与业务模型的关系
2.1.2 数据导入工具
2.1.3 关系数据库导入
2.1.4 非关系型数据导入
2.1.5 Hive简介
2.1.6 Hbase简介
2.2 导入工具Flume
2.2.1 数据导入环境配置
2.2.2 使用二级代理导入
2.3 导入工具Sqoop
2.3.1 关系数据库准备
2.3.2 使用sqoop导入HDFS
2.4 日常数据分析
2.4.1 配置Hive服务器
2.4.2 创建Hive表
2.4.3 使用Hive分析数据
2.5 Hbase
2.5.1 Hbase服务器配置
2.5.2 Hbase数据表建立
2.5.3 Hbase数据录入和更新
2.5.4 Hbase开发接口
3 数据分析
3.1 数据清洗
3.1.1 数据清洗的必要性
3.1.2 数据清洗的工具
3.2 Python编程基础
3.2.1 Python语言特点
3.2.2 python的数据结构
3.2.3 字符串处理函数
3.2.4 正则表达式
3.2.5 匿名函数
3.3 数据分析基础
3.3.1 使用python实现MapReduce
3.3.2 Pandas库的使用
3.3.3 Numpy扩展数学功能
3.3.4 基本分析方法
3.3.5 数据导出
3.4 回归分析(预测分析)
3.4.1 商业问题:如何预测未来的销售量(定量分析)?
3.4.2 回归分析概述
3.4.3 回归分析适用场景
3.4.4 回归分析拟合度检验
3.4.5 解读回归分析结果
3.5 逻辑回归分析(预测分析)
3.5.1 商业问题:如果评估用户购买某产品的概率?
3.5.2 逻辑回归分析原理
3.5.3 逻辑回归分析的适用场景
3.6 【案例】:客户购买预测分析
3.7 【案例】:品牌选择预测分析
4 大数据挖掘与机器学习
4.1 大数据的数据挖掘基础
4.1.1 一般实施步骤
4.1.2 数据挖掘方法论
4.1.3 数值类型数据挖掘
4.1.4 文本类型数据挖掘
4.1.5 图形、视频数据挖掘
4.2 Spark的机器学习函数库
4.2.1 Spark脚本入门
4.2.2 使用RDD和DataSet
4.2.3 数据变换
4.2.4 SparkML库概览
4.3 客户价值评估RFM模型
4.3.1 商业问题:如何评估客户的价值?不同价值客户的营销策略有什么区别?
4.3.2 RFM模型介绍
4.3.3 RFM模型用户分类与业务策略
4.3.4 RFM与客户活跃度分析
4.3.5 【案例】:客户价值如何评估
4.4 聚类分析(Clustering)
4.4.1 商业问题:我们的客户有几类?各类特征是什么?
4.4.2 聚类方法原理介绍
4.4.3 聚类方法适用场景
4.4.4 系统聚类(层次聚类)算法原理
4.4.5 如何判定最佳聚类类别数量
4.4.6 K均值聚类(快速聚类)算法原理
4.5 决策树分类分析(Classification)
4.5.1 商业问题:这类客户有什么特征?有什么潜在销售机会?
4.5.2 决策树原理介绍
4.5.3 构建决策树
4.5.4 如何评估分类性能
4.6 关联分析(Association)
4.6.1 商业问题:购买A产品的顾客还常常要购买其他什么产品?
4.6.2 关联规则原理介绍
4.6.3 关联规则的两个关键参数
4.6.4 Apriori算法介绍
4.6.5 FP-Growth算法介绍
4.6.6 关联规则适用场景
4.6.7 【案例】:商品套餐设商品交叉销售
课程评价

课程评价({{EvaluationTotal}})

课程满意度

评价

您还没有给课程评分哦

满意度

    追加评价:

课程咨询
内容:

您还没有填写内容!

暂无问答,赶紧去提问吧
{{item.AnswerState==1?"已解决":"未解决"}}
{{item.Content}}
{{item.StudentAskTime}}
{{itemanswer.UserName}}
{{itemanswer.Content}}
{{itemanswer.StudentAskTime}}
同类课程推荐 more
嘉为大讲堂 more
原创文章 more

您好! 欢迎来到学领未来 !

学领未来提供线上及线下的学习服务,根据您的位置,为您推荐最近的线下培训地点 分站,你选择: