《大数据全系列》
本次更新内容为大数据第十六阶段:音乐数据中心数仓综合项目:
一、项目介绍
音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。
二、技术选型
音乐数据中心主要使用技术如下:CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等
三、项目核心功能模块
音乐数据中心数仓项目主要分析业务如下:
1)针对业务数仓建模分层设计
2)关系型数据库批量、实时采集到数据中心
3)SpringBoot日志采集接口采集日志数据到数据中心
4)歌曲、歌手热度分析
5)机器分布分析
6)机器位置信息统计分析
7)活跃、留存用户分析
8)用户机器营收分析
9)商户营收数据分析
10)地域营收分析
11)实时热歌榜单分析
12)实时PV/UV统计
13)音乐排行榜统计
14)... ...
适合人群:
1)掌握Hadoop及HDFS原理和使用
2)掌握Hive、HBase、Sqoop、Flume工具
3)掌握SparkCore,SparkSQL,SparkStreaming原理及代码编写
4)掌握azkaban原理及使用
5)掌握Kafka原理及使用
6)掌握redis原理及使用
章节一 Spark项目01 |
01_Spark项目_数据仓库理论_数据库与ER建模 |
02_Spark项目_数据仓库理论_ER实体关系模型建模案例 |
03_Spark项目_数据仓库理论_关系型数据库数据分析瓶颈 |
04_Spark项目_数据仓库理论_数据仓库概念 |
05_Spark项目_数据仓库理论_数据仓库发展过程 |
06_Spark项目_数据仓库理论_维度建模事实表&维度表 |
07_Spark项目_数据仓库理论_维度建模星型模型&雪花模型&星座模型 |
08_Spark项目_数据仓库理论_维度建模案例分析 |
09_Spark项目_数据仓库理论_数据仓库分层 |
10_Spark项目_数据仓库理论_数据仓库分层案例 |
11_Spark项目_音乐项目分析介绍 |
章节二 Spark项目02 |
01_Spark项目_复习 |
02_Spark项目_项目数据处理流程01 |
03_Spark项目_项目数据处理流程02 |
04_Spark项目_大数据项目架构 |
05_Spark项目_项目人员&周期&机器能力 |
06_Spark项目_数据仓库表命名约定规范01 |
07_Spark项目_数据仓库表命名约定规范02 |
08_Spark项目_歌曲歌手热度需求分析 |
09_Spark项目_歌曲歌手热度模型设计01 |
10_Spark项目_歌曲歌手热度模型设计02 |
11_Spark项目_歌曲歌手热度问题答疑 |
章节三 Spark项目03 |
01_Spark项目_歌曲歌手业务模型数据处理流程 |
02_Spark项目_歌曲歌手热度统计_sqoop导入mysql数据到ODS层 |
03_Spark项目_歌曲歌手热度统计_处理clientlog日志01 |
04_Spark项目_歌曲歌手热度统计_处理clientlog日志02 |
05_Spark项目_歌曲歌手热度统计_ODS层歌曲基本信息ETL |
06_Spark项目_歌曲歌手热度统计_EDS层数据聚合统计01 |
07_Spark项目_歌曲歌手热度统计_EDS层数据聚合统计02 |
08_Spark项目_歌曲热度统计 |
09_Spark项目_歌手热度统计 |
章节四 Spark项目04 |
01_Spark项目_Azkaban介绍 |
02_Spark项目_Azkaban搭建配置&搭建流程 |
03_Spark项目_Azkaban启动 |
04_Spark项目_Azkaban任务调度编写及提交 |
05_Spark项目_歌手歌曲热度统计脚本准备01 |
06_Spark项目_歌手歌曲热度统计脚本准备02及Azkaban定时调度 |
07_Spark项目_结果查看 |
08_Spark项目_机器详细基本信息日报需求分析 |
09_Spark项目_机器详细基本信息日报模型设计及导入ODS层数据 |
10_Spark项目_机器详细基本信息代码分析 |
章节五 Spark项目05 |
01_Spark项目_Azkaban问题解决&复习 |
02_Spark项目_用户画像_7日活跃用户统计 |
03_Spark项目_用户画像_表模型设计 |
04_Spark项目_用户画像_sqoop增量导入数据 |
05_Spark项目_用户画像_7日活跃用户统计代码 |
06_Spark项目_用户画像_Azkaban 任务提交 |
07_Spark项目_商户营收统计_业务分析 |
08_Spark项目_商户营收统计_机器消费退款订单业务01 |
09_Spark项目_商户营收统计_机器消费退款订单业务02 |
10_Spark项目_商户营收统计_高德api使用 |
章节六 Spark项目06 |
01_Spark项目_商户营收统计复习 |
02_Spark项目_机器上报位置信息统计 |
03_Spark项目_机器上报位置信息处理01 |
04_Spark项目_机器上报位置信息处理02 |
05_Spark项目_机器营收统计&商户营收统计 |
06_Spark项目_机器营收统计_Azkaban调度_脚本准备 |
07_Spark项目_机器营收统计_Azkaban调度_任务编写 |
08_Spark项目_机器营收统计_Azkaban调度_结果查看 |
09_Spark项目_流式处理流程图 |
10_Spark项目_数据采集接口 |
11_Spark项目_流式处理_数据生产01 |
12_Spark项目_流式处理_数据生产02 |
13_Spark项目_流式处理_Flume实时监控数据到Kafka |
14_Spark项目_实时统计PVUV_Flume 实时统计PVUV存入Redis |
章节七 Spark优化 |
01_Spark优化_资源优化&提高并行度 |
02_Spark优化_自定义分区器 |
03_Spark优化_代码优化01 |
04_Spark优化_代码优化02_map端预聚合算子 |
05_Spark优化_代码优化03 |
06_Spark优化_shuffle优化 |
07_Spark优化_内存优化&堆外内存调节 |
08_Spark优化_数据倾斜 |
09_Spark优化_Spark数据倾斜_HiveETL预处理&过滤少数倾斜的key&增加并行度 |
10_Spark优化_Spark数据倾斜_双重聚合 |
11_Spark优化_Spark数据倾斜_mapjoin 代替reduce join |
12_Spark优化_Spark数据倾斜_采样倾斜的key分拆join |
13_Spark优化_Spark数据倾斜_随机加前缀和膨胀处理 |
另附各章节课程资料