WZX's Blog

Spark源码阅读(三十四): SparkSQL之Tungsten内存优化应用
基于Tungsten内存管理方式实现的基本数据类型和数据结构
2020/11/20 Spark
Spark源码阅读(三十三): SparkSQL之聚合
聚合操作指的是在原始数据的基础上按照一定的逻辑进行整合从而得到新的数据，一般通过聚合函数和分组聚合的方式汇总多行的信息
2020/11/18 Spark
Spark源码阅读(三十二): SparkSQL之Join
Spark SQL对Join的解析和执行过程
2020/11/13 Spark
Spark源码阅读(三十一): SparkSQL之物理计划
物理计划阶段，Spark SQL 根据逻辑算子树得到物理算子树。与逻辑计划的平台无关性不同，物理计划是与底层平台紧密相关的
2020/11/08 Spark
Spark源码阅读(三十): SparkSQL之优化逻辑计划
解析过的逻辑计划需要进行优化
2020/11/05 Spark
Spark源码阅读(二十九): SparkSQL之解析逻辑计划
Anlysis阶段所起到的主要作用就是将逻辑算子树中未被解析的UnresolvedRelation和UnresolvedAttribute两种对象解析成Typed对象
2020/11/05 Spark
Spark源码阅读(二十八): SparkSQL之unresolved逻辑计划
SQL语句经由ANTLR4解析树转换为未解析的逻辑算子树，逻辑计划本质上是一种中间过程表示，与Spark平台无关，后续阶段会进一步解析占位符并映射为可执行的物理计划
2020/10/21 Spark
Spark源码阅读(二十七): SparkSQL之编译器ANTLR4
简述Spark SQL中对SQL语句的解析原理
2020/10/20 Spark
Spark源码阅读(二十六): SparkSQL之基本概念
介绍Spark SQL中的基本重要概念
2020/10/19 Spark
大数据日知录学习(六)：Zookeeper
Yahoo 开源的可拓展高吞吐分布式协调系统。ZK本质是特殊的FS，但用于存储元数据，应用数据需要单独存储
2020/10/18 大数据理论与架构