总结大数据的学习方法。
从Boss直聘等招聘网站中,搜索大数据相关职位。把里面的职位要求摘抄出来,并统计20个职位中。要求:Spark的职位个数,要求Hive的职位个数,要求Flink的职位个数;并使用Word画出一个柱状图。
在自己的笔记本上安装4台CentOS-7.9版的Linux系统
给所有的Linux操作系统修改主机名和/etc/hosts文件
本章资料下载地址
本章节资料下载地址
使用vi,vim命令编写一段java的hello world程序
在/home目录中创建x/y/z目录,并且拷贝至少两个文本文件到该目录下
在linux的根目录中创建:/bigdata目录
安装jdk并配置好java的环境变量,注意:环境变量配置在~/.bash_profile文件中
写一个shel1 脚本,功能如下:
循环遍历文件每一行,通过流程控制语句实现如下功能:
创建用户组sxt,然后创建用户bjsxt,让该用户所属的主用户组为sxt
通过touch命令先创建一个空文件gtjin.txt,通过echo和数据重定向向该文件中输入“sxt very good”,最后将文件的权限改为rwxrw-r--
作业1:实现nginx和至少两个tomcat的赋值均衡的集群
作业2:实现动静分离
作业1:实现nginx高可用的主备切换:
zookeeper实现高可用的原理
zookeeper是如何保证事物顺序一致性的
zookeeper是如何选主的
zookeeper的4种节点类型,有什么区别?
本阶段资料下载地址
简单描述HDFS的写文件流程
简单描述HDFS的读文件流程
简述HDFS NameNode高可用实现原理
如果Client 节点就在HDFS 中的一台DataNode 节点上,副本的数据又是如何存储 的?
MapReduce 数据倾斜什么时候发生
简单描述MapReduce 工作流程
简述MapReduce 执行流程
根据上课视频和讲义文档,自己阅读两遍相关的源代码
能够独立将本章的两个小项目自己编写出来
本章的两个项目的要求:能够听懂和理解;如果能够自己编码出,将更好!
简述Lateral View的使用场景?
简述Hive工作原理
简述Hive View的特点?
hive 内部表和外部表区别
简述自定义UDF函数需要哪几步?
简述JVM重用的优化方案?
简述单词统计(wordcount)通过MapReduce和hive两种实现方式的区别?
hive 与关系型数据库的关系
如何设置合理Map和Reduce Task的数量?
本章节资料下载
简述分区和分桶的区别?
编写通过JavaApi实现创建表tb_emp,含有两个列族cf1和cf2
简单描述rowkey 的设计思想
简述Protocol Buffer是什么?能做什么?
简述建表时两种预置多个region的方式?
简述对写表操作进行优化时,HTable常见的参数设置有哪些?
本阶段资料下载
简单描述hbase 的架构设计中Client、Zookeeper、Master、RegionServer各自的主要作用?
简单描述hbase 的写流程?
简单描述hbase的读流程?
简述-XPOST和-XPUT在curl命令下的区别?
简述ES集群搭建的具体步骤?
简述ES与solr的区别?
简述 elasticsearch 的应用场景和技术架构
总结数据持久化机制有哪些,分别有什么优劣?
总结哨兵工作原理是什么?
简述stream数据类型的特点?
总结高可用集群的有哪些搭建步骤?
从高可用集群中删除一个主节点,需要怎么做?
简述函数至简原则是什么?
编码实现手机号码合法性校验案例
Kafka消息队列应用场景有哪些?
简述Kafka是如何实现消息数据去重的
简述Broker的工作流程
1.简述Spark技术栈都有哪些,分别有能做什么?
简述Standalone架构原理?
简述Spark On YARN的Client运行模式?
简述Spark On YARN的Cluster运行模式?
为什么需要RDD?
简述RDD的五大特性?
简述Spark DAG是什么?
简述什么是宽、窄依赖关系?
简述SparkSQL的特点有哪些?
简述DataFrame构成?
简述DStream数据抽象?
请写下你知道的DStream无状态转换的方法?
为什么需要工作流调度系统?
常见的工作流调度系统有哪些?
自己搭建集群模式的Azkaban?
自己完成多作业依赖实战?
自己完成Java代码作业类型实战?
安装配置Superset需要的Python环境
安装配置Superset
使用Superset Web界面配置MySQL数据源和表。
根据视频所讲制作自己的仪表盘和图标。
描述数据仓库分层详细设计及每层作用?
数据仓库与关系型数据库的区别?
掌握SparkCore对日志数据进行解析并且分目录保存
实战歌曲热度或者歌手热度统计代码
使用Azkaban进行自动任务流调度
使用Superset进行结果数据展示
使用Sqoop增量导入数据
熟练掌握日志采集接口采集日志及Flume日志收集
简述Standalone集群架构原理?
简述FlinkOnYarn集群架构原理?
简述你对Flink并行度、资源槽的理解?
需求:从MySQL中实时加载数据,要求每隔10秒钟查询flinkdb.tb_product表中的最新全量数据。继承RichSourceFunction(多功能)来自定义无并行度或继承RichParallelSourceFunction(多功能)来自定义有并行度。
简述Union和Connect的区别?
简述Flink窗口都有哪些类型,以及它们的区别?
简述Flink有哪些时间语义?
分别简述Watermark、AllowedLateness的作用?
简述Flink状态的分类?
简述Checkpoint和Savepoint分别的作用和区别?
简述Table API 和 SQL的执行原理?
简述Flink整合Hive的优势有哪些?
描述集群管理存在的问题
完成Cloudera Manager 平台搭建
完成基于Cloudera Manager 安装CDH
完成HDFS集群HA升级操作
描述Impala集群架构原理
完成Impala命令操作
熟练掌握事实表和维度表及星型模型、雪花模型
描述kylin架构及原理
完成Kylin搭建及操作
自己构建事实表及维度表实操构建kylin cube
资料下载链接
按照要求完成自己的简历。
投递到指定的网站,并使用图文描述投递过程(马赛克自己的联系方式)
完成对两家中小型软件公司的调研,并写出完整的调研报告。
做出某个公司完整的笔试题,并给出完整的答案。
描述自己某一家公司的面试过程,至少2000字。
描述自己拿到offer后上班前一周发生的事情。
上班1个月内,规划自己在公司一年的成长计划(技术成长计划),至少500字。
工作3个月了,描述自己印象最深的一次成长经历。
工作3个月了,描述自己项目经验积累的情况。
工作5个月了,建立完整的3年学习计划,直达CTO需要的技术储备列表。
职场上,不仅需要技术能力更要有软实力。
链接:https://pan.baidu.com/s/1Xq30trxyWc4EUAezQkzCWQ?pwd=wjae
提取码:wjae
您还不是超级VIP会员,不能查看作业,马上变身成为超级VIP会员
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2023 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637