Spark3 Clickhouse Hadoop大数据实战课程资源介绍:
学员通过本课程的学习,不仅可以掌握使用Python进行Spark3数据分析,还会掌握利用Scala/java进行Spark数据分析,多语言并进,力求全面掌握;另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。
资源目录:
第1章课程简介及环境安装(2小时11节) 1-1Spark3+Clickhouse课程大纲简介[11:41] 1-2大数据生态圈现状[11:04] 1-3彻底理解Spark RDD[13:38] 1-4开发环境安装JDK+Scala2.12[11:31] 1-5Spark3源码跟踪学习技巧[09:06] 1-6Spark IDEA调试环境搭建[06:38] 1-7Net网络配置及虚拟机静态IP配置[16:08] 1-8VMWare Workstation克隆主机[05:31] 1-9SSH无密钥登陆及关闭防火墙[06:28] 1-10Hadoop集群搭建[22:03] 1-11Spark3.x集群搭建[06:14] 第2章Hadoop/Yarn光速入门(57分钟3节) 2-1Hadoop集群动态扩容[22:45] 2-2Yarn核心组件及调度原理[11:16] 2-3Spark Yarn两种调度模式原理及代码实战[23:51] 第3章Spark RDD光速入门(4小时41分钟15节) 3-1Spark JdbcRDD等多种方式创建RDD[26:12] 3-2Jupter Notebook PySpark学习环境搭建[09:52] 3-3累加器和广播变量等8个知识点[27:36] 3-4SparkContext上的20个知识点[10:44] 3-5combineByKey等6个知识点[21:37] 3-6牢记容易被混淆的xxxByKey算子[10:34] 3-7RDD集合的差并补集[17:15] 3-8RDD上其余的20个知识点[23:53] 3-9通过隐式转换扩充RDD转换算子[17:53] 3-10通过隐式转换扩充RDD Action算子[17:08] 3-11常用的Action算子汇总(1)[30:03] 3-12常见的Action算子汇总(2)[12:42] 3-13SparkConfig配置对象[12:03] 3-14Spark任务调度源码走读[30:36] 3-15基于Spark RDD的项目实战[13:31] 第4章 DataFrame/Dataset光速入门 (5小时17分钟 11节) 4-1SparkSession详解[33:25] 4-2SparkSession read and writ[18:02] 4-3SparkSQL模块简介[06:22] 4-4Spark DataFrame核心算子知识点16[34:44] 4-5Spark DataFrame核心知识点60[46:12] 4-6GroupedData和Column知识点[41:42] 4-7Catalog和Row知识点[14:20] 4-8空数据处理和数据统计[22:03] 4-9Spark读写数据详细知识点[32:36] 4-10Spark数据类型及functions核武库[49:43] 4-11基于DataFrame的数据挖掘实战[18:34] 第5章 SparkSQL进阶 (3小时23分钟 11节) 5-1人生苦短我用SparkSQL[10:51] 5-2SparkSQL join原理及优化思路[36:13] 5-3SparkUDF用户自定义函数[11:14] 5-4Spark UDAF用户自定义聚合函数[09:38] 5-5SparkSQL整合Hive[29:36] 5-6Spark UDTF用户自定义表生成函数[09:25] 5-7SparkSQL性能优化数据倾斜之两阶段聚合[21:24] 5-8SparkSQL大表关联小表数据倾斜优化以及broa[13:14] 5-9Sql执行顺序及数仓分层理论[11:42] 5-10SparkSQL+Hive构建离线数仓[37:09] 5-11DWD明细数据生成[12:54] 第6章 Structured Streaming光速入门 (2小时38分钟 7节) 6-1Structured Streaming流式处理的两[09:17] 6-2Structured Streaming核心概念[32:33] 6-3Structured Streaming滑动窗口和水[37:33] 6-4Zokeeper集群搭建[16:15] 6-5Kafka集群搭建[24:16] 6-6pykafka推送hive订单数据到topic[27:43] 6-7Structured Streaming消费kafk[10:52] 第7章 SparkML快速入门 (2小时53分钟 8节) 7-1机器学习项目python数据处理[20:19] 7-2SparkML向量及矩阵表示[22:16] 7-3SparkML中四种分布式矩阵表示[16:05] 7-4SparkML特征转换(1)[44:17] 7-5SparkML特征转换(2)[16:55] 7-6SparkML pipline管道[20:01] 7-7SparkML交叉验证及网格搜索[12:50] 7-8SparkML房价预测[20:37] 第8章 Spark性能调优 (1小时5分钟 2节) 8-1Spark程序编写9大准则[27:38] 8-2Spark程序性能优化8大技巧[37:51] 第9章 Clickhouse光速入门 (4小时38分钟 12节) 9-1Clickhouse安装及用户和密码配置[17:54] 9-2TinyLog、Memory、Merge引擎[15:59] 9-3MergeTree引擎[33:11] 9-4Clickhouse集群配置及分布式表[29:03] 9-5Clickhouse单机多实例部署[31:54] 9-6Clickhouse三机双实例部署[08:53] 9-7Clickhouse三分片两副本集群配置[16:42] 9-8ReplicatedMergeTree实战[24:51] 9-9查询工具Tabix及DBeaver配置及使用[13:46] 9-10SSB数据分析实战[37:15] 9-11Catboost安装及回归分析应用[20:01] 9-12Catboost回归模型在clickhouse sq[29:08] 第10章 clickhouse集群监控 (1小时12分钟 5节) 10-1Clickhouse集群监控之Prometheus安[09:50] 10-2Clickhouse集群监控之Grafana配置[10:59] 10-3Clickhouse集群监控之node_export[11:17] 10-4Grafana导入clickhouse集群监控模板[02:42] 10-5Nginx反向代理Tabix+Pro+CK+Graf[37:26]
此隐藏内容仅限VIP查看升级VIP