数仓建模项目:音乐数据项目火力全开,双倍技能提升!

音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建
模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处
理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。

项目架构

数据中心项目是 Spark 综合的数仓项目。分为离线处理和实时处理,其中用到的技术有 MySQL、Sqoop、HDFS、Yarn、Hive、数据仓库模型设计、SparkCore、SparkSQL、SparkStreaming、AzkabanFlume、Kafka、Redis、superSet、Redis、微信指数、高德 API 等。
离线处理:以 Spark 为主,其中很少使用了 SparkCore 的代码,主要使用 SparkSQL构建数据仓库。项目使用 airflow/Azkaban 进行调度,可以每日进行调度,也可以每月进行调度,每天定时触发调度。
实时处理:使用 SparkStreaming 实现实时处理。离线 N+1 的方式不能得到实时数据,运营活动中心有时需要实时的用户上线数据,针对客户端进行数据埋点,用户在客户端所有的行为都是事件,对事件进行埋点,当用户触发了一些事件时,判断用户是否满足了目标用户情况。

音乐数据中心主要使用技术

CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等

项目核心功能模块

十三大核心功能模块 满足企业多方面需求

  • 针对业务数仓建模分层设计
  • 关系型数据库批量
    实时采集到数据中心
  • SpringBoot日志采集接口采集
    日志,数据到数据中心
  • 歌曲、歌手热度分析
  • 机器分布分析
  • 机器位置信息统计分析
  • 活跃、留存用户分析
  • 用户机器营收分析
  • 商户营收数据分析
  • 地域营收分析
  • 实时热歌榜单分析
  • 实时PV/UV统计
  • 音乐排行榜统计

适合人群

  • 熟练掌握
    Hadoop及HDFS原理和使用

  • 熟练掌握
    SparkCore、SparkSQL、SparkStreaming
    原理及代码编写

  • 熟练掌握
    Kafka原理及使用

  • 熟练掌握
    Hive、HBase、SqoopFlume工具

  • 熟练掌握
    azkaban原理及使用

  • 熟练掌握
    redis原理及使用

数据仓库模型模型 三大主题

用户、机器、内容

  • ODS层

    ODS文件中是从业务数据库中抽取出来数据表的原数据, 数据从关系型数据库MySQL中导入,转换成Parquet格式的文件存在HDFS中,后期方便使用SparkSQL处理。

  • EDS层

    EDS层负责信息集成、轻度汇总类数据。简单理解就是将事务性的数据组织成便于分析的仓库维度建模类型的数据,做一些轻度聚合,类似Hive中的宽表。

  • DM层

    DM层的数据有一部分是存储在 Hive 表中,或者保存分析结果到MySQL、HBase等。EDS层数据是parquet格式的数据,放在Hive的主要原因是后期使用Kylin查询一些业务,数据放MySQL的都是结果数据,放在HBase的原因是设涉及到大表的明细查询。

课程大纲

百战程序员微信公众号

百战程序员微信小程序

©2014-2022 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    <营业执照    经营许可证:京B2020212637