用自己的话描述什么是大数据?什么是机器学习?
从拉钩网等招聘网站中,搜索大数据相关职位。把里面的职位要求摘抄出来,并统计20个职位中。
本章资料下载地址
在自己的笔记本上安装4台CentOS-7.9版的Linux系统
给所有的Linux操作系统修改主机名和/etc/hosts文件
本章节资料下载地址
使用vi,vim命令编写一段java的hello world程序
在/home目录中创建x/y/z目录,并且拷贝至少两个文本文件到该目录下
在linux的根目录中创建:/bigdata目录
安装jdk并配置好java的环境变量,注意:环境变量配置在~/.bash_profile文件中
写一个shel1 脚本,功能如下:
循环遍历文件每一行,通过流程控制语句实现如下功能:
创建用户组sxt,然后创建用户bjsxt,让该用户所属的主用户组为sxt
通过touch命令先创建一个空文件gtjin.txt,通过echo和数据重定向向该文件中输入“sxt very good”,最后将文件的权限改为rwxrw-r--
作业1:实现nginx和至少两个tomcat的赋值均衡的集群
作业2:实现动静分离
作业1:实现nginx高可用的主备切换:
本章资料下载
zookeeper实现高可用的原理
zookeeper是如何保证事物顺序一致性的
zookeeper是如何选主的
zookeeper的4种节点类型,有什么区别?
本阶段资料下载地址
简单描述HDFS的写文件流程
简单描述HDFS的读文件流程
简述HDFS NameNode高可用实现原理
如果Client 节点就在HDFS 中的一台DataNode 节点上,副本的数据又是如何存储 的?
MapReduce 数据倾斜什么时候发生
简单描述MapReduce 工作流程
简述MapReduce 执行流程
根据上课视频和讲义文档,自己阅读两遍相关的源代码
能够独立将本章的两个小项目自己编写出来
本章的两个项目的要求:能够听懂和理解;如果能够自己编码出,将更好!
简述Lateral View的使用场景?
简述Hive工作原理
简述Hive View的特点?
hive 内部表和外部表区别
简述自定义UDF函数需要哪几步?
简述JVM重用的优化方案?
简述单词统计(wordcount)通过MapReduce和hive两种实现方式的区别?
hive 与关系型数据库的关系
如何设置合理Map和Reduce Task的数量?
本章节资料下载
简述分区和分桶的区别?
编写通过JavaApi实现创建表tb_emp,含有两个列族cf1和cf2
简单描述rowkey 的设计思想
简述Protocol Buffer是什么?能做什么?
简述建表时两种预置多个region的方式?
简述对写表操作进行优化时,HTable常见的参数设置有哪些?
本阶段资料下载
简单描述hbase 的架构设计中Client、Zookeeper、Master、RegionServer各自的主要作用?
简单描述hbase 的写流程?
简单描述hbase的读流程?
简述-XPOST和-XPUT在curl命令下的区别?
简述ES集群搭建的具体步骤?
简述ES与solr的区别?
简述 elasticsearch 的应用场景和技术架构
总结数据持久化机制有哪些,分别有什么优劣?
总结哨兵工作原理是什么?
简述stream数据类型的特点?
总结高可用集群的有哪些搭建步骤?
从高可用集群中删除一个主节点,需要怎么做?
简述函数至简原则是什么?
编码实现手机号码合法性校验案例
掌握Spark RDD宽窄依赖及计算模式
掌握SparkStreaming与Kafka整合的参数
掌握SparkStreaming与Kafka整合的原理
熟练掌握SparkSQL 案例
SparkSQL UDF及UDAF使用
Spark SortShuffle流程
掌握广播变量和累加器
熟练记忆Spark资源调度结论
掌握Spark资源调度源码及任务调度源码
列举Spark提交任务的参数
掌握Spark 二次排序及分组取topN问题代码
熟练编写各类算子代码
Spark基于Yarn提交任务两种流程
Spark 算子分类及举例介绍?
RDD五大特性及注意问题?
掌握Spark 与MapReduce的区别?
完成Azkaban的源码编译工作
安装配置Azkaban
编写azkaban任务流
使用azkaban调度Spark任务
掌握SparkCore对日志数据进行解析并且分目录保存
掌握数据倾斜处理方式
掌握Spark各类优化
熟练编写流式业务代码
熟练掌握日志采集接口采集日志及Flume日志收集
使用Sqoop增量导入数据
使用Superset进行结果数据展示
使用Azkaban进行自动任务流调度
实战歌曲热度或者歌手热度统计代码
数据仓库与关系型数据库的区别?
描述数据仓库分层详细设计及每层作用?
描述集群管理存在的问题
完成Cloudera Manager 平台搭建
完成基于Cloudera Manager 安装CDH
完成HDFS集群HA升级操作
描述Impala集群架构原理
完成Impala命令操作
熟练掌握事实表和维度表及星型模型、雪花模型
描述kylin架构及原理
完成Kylin搭建及操作
自己构建事实表及维度表实操构建kylin cube
资料下载链接
按照要求完成自己的简历。
投递到指定的网站,并使用图文描述投递过程(马赛克自己的联系方式)
完成对两家中小型软件公司的调研,并写出完整的调研报告。
做出某个公司完整的笔试题,并给出完整的答案。
描述自己某一家公司的面试过程,至少2000字。
描述自己拿到offer后上班前一周发生的事情。
上班1个月内,规划自己在公司一年的成长计划(技术成长计划),至少500字。
工作3个月了,描述自己印象最深的一次成长经历。
工作3个月了,描述自己项目经验积累的情况。
工作5个月了,建立完整的3年学习计划,直达CTO需要的技术储备列表。
职场上,不仅需要技术能力更要有软实力。
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2022 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备14032124号-2 京ICP备18060230号-2 京ICP备13018289号-12 营业执照 经营许可证:京B2020212637