首页>课程更新>Talk is cheap,show me the code,《大数据全系列》第16阶段更新

Talk is cheap,show me the code,《大数据全系列》第16阶段更新

大数据全系列

 

本次更新内容为大数据第十六阶段:音乐数据中心数仓综合项目:

 

一、项目介绍
音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。


二、技术选型
音乐数据中心主要使用技术如下:CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等


三、项目核心功能模块
音乐数据中心数仓项目主要分析业务如下:
1)针对业务数仓建模分层设计
2)关系型数据库批量、实时采集到数据中心
3)SpringBoot日志采集接口采集日志数据到数据中心
4)歌曲、歌手热度分析
5)机器分布分析
6)机器位置信息统计分析
7)活跃、留存用户分析
8)用户机器营收分析
9)商户营收数据分析
10)地域营收分析
11)实时热歌榜单分析
12)实时PV/UV统计
13)音乐排行榜统计
14)... ...


适合人群:
1)掌握Hadoop及HDFS原理和使用
2)掌握Hive、HBase、Sqoop、Flume工具
3)掌握SparkCore,SparkSQL,SparkStreaming原理及代码编写
4)掌握azkaban原理及使用
5)掌握Kafka原理及使用
6)掌握redis原理及使用

 

章节一 Spark项目01

01_Spark项目_数据仓库理论_数据库与ER建模

02_Spark项目_数据仓库理论_ER实体关系模型建模案例

03_Spark项目_数据仓库理论_关系型数据库数据分析瓶颈

04_Spark项目_数据仓库理论_数据仓库概念

05_Spark项目_数据仓库理论_数据仓库发展过程

06_Spark项目_数据仓库理论_维度建模事实表&维度表

07_Spark项目_数据仓库理论_维度建模星型模型&雪花模型&星座模型

08_Spark项目_数据仓库理论_维度建模案例分析

09_Spark项目_数据仓库理论_数据仓库分层

10_Spark项目_数据仓库理论_数据仓库分层案例

11_Spark项目_音乐项目分析介绍

 

章节二 Spark项目02

01_Spark项目_复习

02_Spark项目_项目数据处理流程01

03_Spark项目_项目数据处理流程02

04_Spark项目_大数据项目架构

05_Spark项目_项目人员&周期&机器能力

06_Spark项目_数据仓库表命名约定规范01

07_Spark项目_数据仓库表命名约定规范02

08_Spark项目_歌曲歌手热度需求分析

09_Spark项目_歌曲歌手热度模型设计01

10_Spark项目_歌曲歌手热度模型设计02

11_Spark项目_歌曲歌手热度问题答疑

 

章节三 Spark项目03

01_Spark项目_歌曲歌手业务模型数据处理流程

02_Spark项目_歌曲歌手热度统计_sqoop导入mysql数据到ODS层

03_Spark项目_歌曲歌手热度统计_处理clientlog日志01

04_Spark项目_歌曲歌手热度统计_处理clientlog日志02

05_Spark项目_歌曲歌手热度统计_ODS层歌曲基本信息ETL

06_Spark项目_歌曲歌手热度统计_EDS层数据聚合统计01

07_Spark项目_歌曲歌手热度统计_EDS层数据聚合统计02

08_Spark项目_歌曲热度统计

09_Spark项目_歌手热度统计

 

章节四 Spark项目04

01_Spark项目_Azkaban介绍

02_Spark项目_Azkaban搭建配置&搭建流程

03_Spark项目_Azkaban启动

04_Spark项目_Azkaban任务调度编写及提交

05_Spark项目_歌手歌曲热度统计脚本准备01

06_Spark项目_歌手歌曲热度统计脚本准备02及Azkaban定时调度

07_Spark项目_结果查看

08_Spark项目_机器详细基本信息日报需求分析

09_Spark项目_机器详细基本信息日报模型设计及导入ODS层数据

10_Spark项目_机器详细基本信息代码分析

 

章节五 Spark项目05

01_Spark项目_Azkaban问题解决&复习

02_Spark项目_用户画像_7日活跃用户统计

03_Spark项目_用户画像_表模型设计

04_Spark项目_用户画像_sqoop增量导入数据

05_Spark项目_用户画像_7日活跃用户统计代码

06_Spark项目_用户画像_Azkaban 任务提交

07_Spark项目_商户营收统计_业务分析

08_Spark项目_商户营收统计_机器消费退款订单业务01

09_Spark项目_商户营收统计_机器消费退款订单业务02

10_Spark项目_商户营收统计_高德api使用

 

章节六 Spark项目06

01_Spark项目_商户营收统计复习

02_Spark项目_机器上报位置信息统计

03_Spark项目_机器上报位置信息处理01

04_Spark项目_机器上报位置信息处理02

05_Spark项目_机器营收统计&商户营收统计

06_Spark项目_机器营收统计_Azkaban调度_脚本准备

07_Spark项目_机器营收统计_Azkaban调度_任务编写

08_Spark项目_机器营收统计_Azkaban调度_结果查看

09_Spark项目_流式处理流程图

10_Spark项目_数据采集接口

11_Spark项目_流式处理_数据生产01

12_Spark项目_流式处理_数据生产02

13_Spark项目_流式处理_Flume实时监控数据到Kafka

14_Spark项目_实时统计PVUV_Flume 实时统计PVUV存入Redis

 

章节七 Spark优化

01_Spark优化_资源优化&提高并行度

02_Spark优化_自定义分区器

03_Spark优化_代码优化01

04_Spark优化_代码优化02_map端预聚合算子

05_Spark优化_代码优化03

06_Spark优化_shuffle优化

07_Spark优化_内存优化&堆外内存调节

08_Spark优化_数据倾斜

09_Spark优化_Spark数据倾斜_HiveETL预处理&过滤少数倾斜的key&增加并行度

10_Spark优化_Spark数据倾斜_双重聚合

11_Spark优化_Spark数据倾斜_mapjoin 代替reduce join

12_Spark优化_Spark数据倾斜_采样倾斜的key分拆join

13_Spark优化_Spark数据倾斜_随机加前缀和膨胀处理

 

 

 

另附各章节课程资料

 

 

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637