学习目标
企业级项目实战,双倍经验累计!大型网站日志分析离线项目主要使用技术如下
Nginx
Flume
HDFS
MapReduce
HBase
Zookeeper
Hive
Sqoop
大型网站日志分析离线项目作为企业级日志分析项目主要是对网站的用户日志数据按时间段进行离线批处理,将计算结果存储于关系型数据库系统。 后续可以根据业务的需要,直接以关系型数据库系统中的数据为基础进行数据的可视化处理。本项目以电商网站做为基础,通过各种日志数据进行分析,对公司的产品做一些决策。该项目的结果数据可以作为网站运行部门提高网站粘性,促进产品销售,优化网站布局等业务的依据。
企业级项目实战,双倍经验累计!大型网站日志分析离线项目主要使用技术如下
Nginx
Flume
HDFS
MapReduce
HBase
Zookeeper
Hive
Sqoop
9大模块 项目开发不用愁!
来源数据的分析
基于上述数据
要实现什么样的需求和功能
基于来源数据与需求,以及你所掌握的
spark技术,设计方案来实现需求功能
技术方案设计完了以后,要配合
着技术方案,设计数据库中表
基于上述所有的东西,使用你掌握的
MapReducek技术,来编码,实现功能
包括本地测试和生产环境测试
Nginx、Flume、HDFS、MapReduce、
HBase、Zookeeper、Hive、Sqoop
项目上线以后,要及时解决出现的
线上故障与报错
后期维护过程中,可能会出现的严重
的性能问题
三大主营业务 全面覆盖技术点
该模块主要分析用户的访问记录的深度,用户在一个会话中访问页面的数量 网站访问深度就是用户在一次浏览你的网站的过程中浏览了你的网站的页数。如果用户一次性的浏览了你的网站的页数越多,那么就基本上可以认定,你的网站有他感兴趣的东西。 用户访问网站的深度用数据可以理解为网站平均访问的页面数,就是PV和uv的比值,这个比值越大,用户体验度越好,网站的粘性也越高。
掌握Java代码
掌握Linux shell编程
掌握HDFS
及MapReduce原理和使用
掌握Hive及HBase原理和使用