Hadoop生态体系—大型电商日志离线分析系统

大型网站日志分析离线项目作为企业级日志分析项目主要是对网站的用户日志数据按时间段进行离线批处理,将计算结果存储于关系型数据库系统。 后续可以根据业务的需要,直接以关系型数据库系统中的数据为基础进行数据的可视化处理。本项目以电商网站做为基础,通过各种日志数据进行分析,对公司的产品做一些决策。该项目的结果数据可以作为网站运行部门提高网站粘性,促进产品销售,优化网站布局等业务的依据。

学习目标

企业级项目实战,双倍经验累计!大型网站日志分析离线项目主要使用技术如下

  • Nginx

  • Flume

  • HDFS

  • MapReduce

  • HBase

  • Zookeeper

  • Hive

  • Sqoop

企业项目开发流程

9大模块 项目开发不用愁!

  • 数据分析

    来源数据的分析

  • 需求分析

    基于上述数据
    要实现什么样的需求和功能

  • 技术方案设计

    基于来源数据与需求,以及你所掌握的
    spark技术,设计方案来实现需求功能

  • 数据库设计

    技术方案设计完了以后,要配合
    着技术方案,设计数据库中表

  • 编码实现

    基于上述所有的东西,使用你掌握的
    MapReducek技术,来编码,实现功能

  • 功能测试

    包括本地测试和生产环境测试

  • 性能调优

    Nginx、Flume、HDFS、MapReduce、
    HBase、Zookeeper、Hive、Sqoop

  • Troubleshooting

    项目上线以后,要及时解决出现的
    线上故障与报错

  • 解决数据倾斜

    后期维护过程中,可能会出现的严重
    的性能问题

项目核心功能模块

三大主营业务 全面覆盖技术点

用户基本信息分析模块
用户基本信息分析模块主要是从用户/访客和会员两个主要角度分析浏览相关信息,包括但不限于新增用户,活跃用户,总用户,新增会员,活跃会员,总会员以及会话分析等
用户访问深度分析模块

该模块主要分析用户的访问记录的深度,用户在一个会话中访问页面的数量 网站访问深度就是用户在一次浏览你的网站的过程中浏览了你的网站的页数。如果用户一次性的浏览了你的网站的页数越多,那么就基本上可以认定,你的网站有他感兴趣的东西。 用户访问网站的深度用数据可以理解为网站平均访问的页面数,就是PV和uv的比值,这个比值越大,用户体验度越好,网站的粘性也越高。

适合人群

  • 掌握Java代码

  • 掌握Linux shell编程

  • 掌握HDFS
    及MapReduce原理和使用

  • 掌握Hive及HBase原理和使用

课程大纲

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637