一、项目介绍
音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。
二、技术选型
音乐数据中心主要使用技术如下:CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等
三、项目核心功能模块
音乐数据中心数仓项目主要分析业务如下:
1)针对业务数仓建模分层设计
2)关系型数据库批量、实时采集到数据中心
3)SpringBoot日志采集接口采集日志数据到数据中心
4)歌曲、歌手热度分析
5)机器分布分析
6)机器位置信息统计分析
7)活跃、留存用户分析
8)用户机器营收分析
9)商户营收数据分析
10)地域营收分析
11)实时热歌榜单分析
12)实时PV/UV统计
13)音乐排行榜统计
14)... ...
适合人群:
1)掌握Hadoop及HDFS原理和使用
2)掌握Hive、HBase、Sqoop、Flume工具
3)掌握SparkCore,SparkSQL,SparkStreaming原理及代码编写
4)掌握azkaban原理及使用
5)掌握Kafka原理及使用
6)掌握redis原理及使用
章节 | 内容 |
---|---|
章节1 理论知识和项目需求 | 1:课程介绍 2:数据库与ER建模_数据库三范式 3:数据库与ER建模_ER实体关系模型 4:数据仓库与维度建模_数据仓库(Data Warehouse) 5:数据仓库与维度建模_数据库与数据仓库区别 6:数据仓库与维度建模_数据仓库的发展历程 7:数据仓库与维度建模_维度建模 8:数据仓库与维度建模_维度建模案例 9:数据仓库与维度建模_数仓分层设计一 10:数据仓库与维度建模_数仓分层设计二 11:数据仓库与维度建模_数仓分层设计案例 12:项目需求_项目介绍 13:项目需求_项目架构 14:项目需求_集群配置-项目人数-周期 15:项目需求_数据来源及采集 16:项目需求_数仓模型设计 |
章节2 歌曲热度与歌手热度排行 | 17:歌曲热度与歌手热度排行_需求描述 18:歌曲热度与歌手热度排行_需求分析一 19:歌曲热度与歌手热度排行_需求分析二 20:歌曲热度与歌手热度排行_需求分析三 21:歌曲热度与歌手热度排行_DataGrip安装激活 22:歌曲热度与歌手热度排行_配置HiveServer2 23:歌曲热度与歌手热度排行_DataGrip配置 24:歌曲热度与歌手热度排行_模型设计 25:歌曲热度与歌手热度排行_Sqoop数据全量同步 26:歌曲热度与歌手热度排行_Sqoop数据全量同步解决bug 27:歌曲热度与歌手热度排行_项目搭建 28:歌曲热度与歌手热度排行_ 歌曲播放日志解析思路 29:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码一 30:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码二 31:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码三 32:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码三 33:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码四 34:歌曲热度与歌手热度排行_ 歌曲播放日志解析编码五 35:歌曲基本信息TO至TW思路分析 36:歌曲基本信息TO至TW编码一 37:歌曲基本信息TO至TW编码二 38:歌曲基本信息TO至TW编码三 39:歌曲基本信息TO至TW编码四 40:歌曲基本信息TO至TW编码五 41:歌曲基本信息TO至TW编码六 42:歌曲基本信息TO至TW编码七 43:歌曲基本信息TO至TW编码测试 44:歌曲特征N日统计思路分析 45:歌曲特征N日统计编码一 46:歌曲特征N日统计编码二 47:歌曲特征N日统计编码三 48:歌曲特征N日统计编码四 49:歌曲特征N日统计编码五 50:歌曲特征N日统计编码六 51:歌曲特征N日统计编码测试 52:歌曲影响力指数日统计思路分析一 53:歌曲影响力指数日统计思路分析二 54:歌曲影响力指数日统计编码一 55:歌曲影响力指数日统计编码二 56:歌曲影响力指数日统计编码三 57:歌曲影响力指数日统计编码四 58:歌曲影响力指数日统计编码五 59:歌曲影响力指数日统计编码测试 60:歌手影响力指数日统计思路分析 61:歌手影响力指数日统计编码一 62:歌手影响力指数日统计编码二 63:歌手影响力指数日统计编码三 64:歌手影响力指数日统计编码测试 65:Azkaban配置任务流一 66:Azkaban配置任务流二 67:Azkaban配置任务流三 68:Azkaban配置任务流四 69:Azkaban配置任务流五 70:Azkaban配置任务流六 71:Azkaban配置任务流执行测试 72:SuperSet数据可视化 |
章节3 机器详细信息统计 | 73:机器详细信息统计_需求分析 74:机器详细信息统计_MySQL表概述一 75:机器详细信息统计_MySQL表概述二 76:机器详细信息统计_Hive模型设计 77:机器详细信息统计_Sqoop数据同步一 78:机器详细信息统计_Sqoop数据同步二 79:机器详细信息统计_ETL数据清洗思路 80:机器详细信息统计_ETL数据清洗编码一 81:机器详细信息统计_ETL数据清洗编码二 82:机器详细信息统计_ETL数据清洗编码三 83:机器详细信息统计_ETL数据清洗编码四 84:机器详细信息统计_ETL数据清洗编码五 85:机器详细信息统计_ETL数据清洗编码六 86:机器详细信息统计_ETL数据清洗编码七 87:机器详细信息统计_ETL数据清洗编码八 88:机器详细信息统计_ETL数据清洗编码九 89:机器详细信息统计_ETL数据清洗编码测试一 90:机器详细信息统计_ETL数据清洗编码测试二 91:机器详细信息统计_Azkaban配置任务流一 92:机器详细信息统计_Azkaban配置任务流二 93:机器详细信息统计_SuperSet数据可视化一 94:机器详细信息统计_SuperSet数据可视化二 95:机器详细信息统计_SuperSet数据可视化三 |
章节4 活跃用户日统计 | 96:活跃用户日统计_需求分析 97:活跃用户日统计_数仓模型设计 98:活跃用户日统计_Sqoop数据同步一 99:活跃用户日统计_Sqoop数据同步二 100:活跃用户日统计_ETL数据清洗思路 101:活跃用户日统计_ETL数据清洗编码一 102:活跃用户日统计_ETL数据清洗编码二 103:活跃用户日统计_ETL数据清洗编码三 104:活跃用户日统计_ETL数据清洗编码四 105:活跃用户日统计_ETL数据清洗编码五 106:活跃用户日统计_ETL数据清洗编码测试 107:活跃用户日统计_Azkaban配置任务流一 108:活跃用户日统计_Azkaban配置任务流二 109:活跃用户日统计_Azkaban配置任务流三 110:活跃用户日统计_Superset数据可视化 |
章节5 商户营收统计和地区营收日统计 | 111:商户营收日统计_需求描述 112:商户营收日统计_需求分析 113:商户营收日统计_数仓模型设计一 114:商户营收日统计_数仓模型设计二 115:商户营收日统计_抽取user_location到ODS层 116:商户营收日统计_抽取机器消费订单明细到ODS层 117:商户营收日统计_高德API概述 118:商户营收日统计_高德账号申请key 119:商户营收日统计_高德API调用 120:商户营收日统计_高德API响应结果分析 121:商户营收日统计_机器位置信息日统计思路分析 122:商户营收日统计_机器位置信息日统计编码一 123:商户营收日统计_机器位置信息日统计编码二 124:商户营收日统计_机器位置信息日统计编码三 125:商户营收日统计_机器位置信息日统计编码四 126:商户营收日统计_机器位置信息日统计编码五 127:商户营收日统计_机器位置信息日统计编码六 128:商户营收日统计_机器位置信息日统计编码七 129:商户营收日统计_机器位置信息日统计编码八 130:商户营收日统计_机器位置信息日统计编码九 131:商户营收日统计_机器位置信息日统计编码总结 132:商户营收日统计_消费退款订单流水日增量思路分析 133:商户营收日统计_消费退款订单流水日增量编码 134:商户营收日统计_消费退款订单流水日增量测试和总结 135:商户营收日统计_机器营收情况日统计思路分析 136:商户营收日统计_机器营收情况日统计编码一 137:商户营收日统计_机器营收情况日统计编码二 138:商户营收日统计_机器营收情况日统计编码三 139:商户营收日统计_机器营收情况日统计编码四 140:商户营收日统计_机器营收情况日统计编码五 141:商户营收日统计_机器营收情况日统计编码六 142:商户营收日统计_EDS至DM思路分析 143:商户营收日统计_EDS至DM编码一 144:商户营收日统计_EDS至DM编码二 145:商户营收日统计_Superset数据可视化 146:地区营收日统计_需求分析 147:地区营收日统计_数仓模型设计 148:地区营收日统计_数据统计思路分析 149:地区营收日统计_数据统计编码一 150:地区营收日统计_数据统计编码二 151:地区营收日统计_Azkaban配置任务流一 152:地区营收日统计_Azkaban配置任务流二 153:地区营收日统计_Azkaban配置任务流三 154:地区营收日统计_Azkaban配置任务流四 155:地区营收日统计_Superset数据可视化一 156:地区营收日统计_Superset数据可视化二 157:地区营收日统计_Superset数据可视化三 |
章节6 实时分析 | 158:实时分析_技术架构 159:实时分析_项目添加Module 160:实时分析_数据采集接口 161:实时分析_数据采集接口部署 162:实时分析_生产数据代码剖析 163:实时分析_Flume采集配置 164:实时分析_日志采集实战 165:实时分析_Redis安装 166:实时分析_用户PV和UV需求分析 167:实时分析_用户PV和UV编码_存偏移量 168:实时分析_用户PV和UV编码_取偏移量 169:实时分析_用户PV和UV编码_存HSet 170:实时分析_用户PV和UV编码_RealTimePVUV一 171:实时分析_用户PV和UV编码_RealTimePVUV二 172:实时分析_用户PV和UV编码_RealTimePVUV三 173:实时分析_用户PV和UV编码_RealTimePVUV四 174:实时分析_用户PV和UV编码_RealTimePVUV五 175:实时分析_用户PV和UV测试一 176:实时分析_用户PV和UV测试二 177:实时分析_歌曲热榜需求分析 178:实时分析_歌曲热榜编码一 179:实时分析_歌曲热榜编码二 180:实时分析_歌曲热榜编码三 181:实时分析_歌曲热榜Flume配置 182:实时分析_歌曲热榜测试 183:实时分析_歌曲热榜数据可视化 |
另附本章节课程资料