首页>课程更新>大数据第17阶段《Spark分布式计算框架》实时更新 你必须要掌握的大数据技术就在这了

大数据第17阶段《Spark分布式计算框架》实时更新 你必须要掌握的大数据技术就在这了

《大数据》

本次课程更新内容为大数据十七阶段——Spark分布式计算框架

本阶段所讲的Spark 是当前流行的基于内存计算的分布式框架,在Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景,如果基于内存计算,计算速度比 Hadoop 生态圈中的MapReduce快100倍以上,如果是基于磁盘的计算,那么速度快10倍以上,所以Spark是当前大数据开发人员必备的技能之一。


适合人群:

1)掌握Hadoop及HDFS原理和使用

2)掌握Scala语言编程

3)掌握zookeeper原理及使用

4)掌握Hive原理及使用


章节内容
章节1
概述

1:课程介绍

2:概述_什么是Spark?

3:概述_Spark主要功能

4:概述_Spark与Hadoop

5:概述_Spark技术栈

6:概述_PySpark Vs Spark

章节2
运行模式

7:运行模式_概述

8:运行模式_WordCount一

9:运行模式_WordCount二

10:运行模式_Local模式安装

11:运行模式_Local模式WebUI

12:运行模式_Spark目录介绍

13:运行模式_SparkPi源码解析

14:运行模式_spark-submit

15:运行模式_Standalone架构分析

16:运行模式_Standalone模式安装一

17:运行模式_Standalone模式安装二

18:运行模式_Standalone启动测试

19:运行模式_Standalone执行任务

20:运行模式_查看历史日志WebUI

21:运行模式_StandaloneHA安装

22:运行模式_StandaloneHA测试

23:运行模式_Yarn模式概述

24:运行模式_Yarn模式安装

25:运行模式_Yarn Client

26:运行模式_Yarn Cluster

27:运行模式_spark-submit参

章节3
RDD

28:RDD_为什么需要RDD

29:RDD_定义

30:RDD_五大特性总述

31:RDD_五大特性1

32:RDD_五大特性2

33:RDD_五大特性3

34:RDD_五大特性4

35:RDD_五大特性5

36:RDD_五大特性总结

37:RDD_创建概述

38:RDD_并行化创建

39:RDD_读取文件创建RDD

40:RDD_读取小文件创建RDD

41:RDD_算子概述

42:RDD_转换算子map

43:RDD_转换算子flatMap

44:RDD_转换算子reduceByKey

45:RDD_转换算子filter

46:RDD_转换算子distinct

47:RDD_转换算子glom

48:RDD_转换算子groupBy

49:RDD_转换算子groupByKey

50:RDD_转换算子sortBy

51:RDD_转换算子sortByKey

52:RDD_转换算子union并集

53:RDD_转换算子交集和差集

54:RDD_转换算子关联算子

55:RDD_转换算子partitionBy

56:RDD_转换算子mapPartitions

57:RDD_转换算子sample

58:RDD_行动算子foreachPartition

59:RDD_行动算子foreach

60:RDD_行动算子saveAsTextFile

61:RDD_行动算子countByKey

62:RDD_行动算子reduce

63:RDD_行动算子fold

64:RDD_行动算子first_take_count

65:RDD_行动算子top_takeOrdered

66:RDD_行动算子takeSampl

章节4
内核进阶

67:内核进阶_DAG概述

68:内核进阶_血缘关系

69:内核进阶_宽窄依赖关系

70:内核进阶_Stage划分

71:内核进阶_任务调度概述

72:内核进阶_管道计算模式上

73:内核进阶_管道计算模式下

74:内核进阶_Cache缓存

75:内核进阶_CheckPoint检查点

76:内核进阶_Cache和CheckPoint区别

77:内核进阶_并行度

78:内核进阶_广播变量

79:内核进阶_累加器一

80:内核进阶_累加器二

81:内核进阶_累加器之重复计算

82:内核进阶_项目实战PVUV需求分析

83:内核进阶_项目实战PV分析

84:内核进阶_项目实战UV分析

85:内核进阶_二次排序实战

86:内核进阶_分组取topN实战

87:内核进阶_卡口统计项目需求分析

88:内核进阶_卡口统计项目统计正常的卡口

89:内核进阶_卡口统计项目Top5

90:内核进阶_卡口统计项目统计不同区域同时出现的车辆

91:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹一

92:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹二

93:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹三

94:内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹四

章节5
SparkSQL

95:SparkSQL_简介

96:SparkSQL_发展史

97:SparkSQL_与Hive区别

98:SparkSQL_SparkSession

99:SparkSQL_数据抽象

100:SparkSQL_DataFrame概述

101:SparkSQL_DataSet概述

102:SparkSQL_DataFrame构成

103:SparkSQL_创建项目

104:SparkSQL_createDataFrame创建DF

105:SparkSQL_toDF创建DF

106:SparkSQL_toDF使用样例类创建DF

107:SparkSQL_DataFrame转换RDD

108:SparkSQL_创建DataSet

109:SparkSQL_DataSet和RDD转换

110:SparkSQL_DataSet和DataFrame转换

111:SparkSQL_读写parquet文件

112:SparkSQL_读写parquet文件扩展

113:SparkSQL_读写text文件

114:SparkSQL_读写json文件

115:SparkSQL_读写csv文件

116:SparkSQL_JDBC读MySQL

117:SparkSQL_JDBC写MySQL

118:SparkSQL_SparkOnHive概述

119:SparkSQL_SparkOnHive配置

120:SparkSQL_SparkOnHive代码开发一

121:SparkSQL_SparkOnHive代码开发二

122:SparkSQL_SparkOnHive代码集群提交

123:SparkSQL_DSL API

124:SparkSQL_数据去重

125:SparkSQL_functions包

126:SparkSQL_SQL API

127:SparkSQL_SQL API实战

128:SparkSQL_自定义函数概述

129:SparkSQL_自定义UDF函数

130:SparkSQL_自定义UDF函数扩展

131:SparkSQL_ArrayType返回值类型的UDF

132:SparkSQL_UDAF函数Old一

133:SparkSQL_UDAF函数Old二

134:SparkSQL_UDAF函数Old三

135:SparkSQL_UDAF函数Old四

136:SparkSQL_UDAF函数New一

137:SparkSQL_UDAF函数New二

138:SparkSQL_UDAF函数New三

139:SparkSQL_开窗函数概述

140:SparkSQL_开窗函数实战

141:SparkSQL实战_找出变化的行一

142:SparkSQL实战_找出变化的行二

143:SparkSQL实战_函数转换Json数据

144:SparkSQL实战_读取嵌套的Json

145:SparkSQL实战_解析JsonArray数据

146:SparkSQL实战_行列转换一

147:SparkSQL实战_行列转换二

148:SparkSQL实战_行列转换三

149:SparkSQL实战_行列转换四

150:SparkSQL实战_用户7日留存分析一

151:SparkSQL实战_用户7日留存分析二

152:SparkSQL实战_用户7日留存分析三

153:SparkSQL实战_统计访问总时长一

154:SparkSQL实战_统计访问总时长二

155:SparkSQL实战_用户在线分析_需求分析

156:SparkSQL实战_用户在线分析_错位关联

157:SparkSQL实战_用户在线分析_数据补全和过滤

158:SparkSQL实战_用户在线分析_总时长_次数_最大时长

159:SparkSQL实战_用户在线分析_每小时在线人数一

160:SparkSQL实战_用户在线分析_每小时在线人数二

161:SparkSQL实战_用户在线分析_每小时在线人数三

162:SparkSQL实战_用户在线分析_每小时在线人数四

章节6
SparkStreaming

163:SparkStreaming概述

164:SparkStreaming_架构

165:SparkStreaming_创建项目

166:SparkStreaming_WordCount

167:SparkStreaming_数据抽象

168:SparkStreaming_RDD队列创建DStream

169:SparkStreaming_自定义数据源一

170:SparkStreaming_自定义数据源二

171:SparkStreaming_DStream无状态转换

172:SparkStreaming_DStream无状态转换transform

173:SparkStreaming_DStream有状态转换

174:SparkStreaming_窗口操作reduceByKeyAndWindow概述

175:SparkStreaming_窗口操作reduceByKeyAndWindow实战

176:SparkStreaming_窗口操作reduceByKeyAndWindow优化

177:SparkStreaming_窗口操作Window

178:SparkStreaming_输出

179:SparkStreaming_优雅关闭一

180:SparkStreaming_优雅关闭二

181:SparkStreaming_优雅关闭测试

182:SparkStreaming_整合Kafka模式

183:SparkStreaming_整合Kafka开发一

184:SparkStreaming_整合Kafka开发二

185:SparkStreaming_整合Kafka测试


另附本章节课程资料

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637