1. 常见数仓分层体系

    优秀可靠的数仓体系,需要清晰的数据分层结构。即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。这里分析常见的数仓分层体系

    2020/12/04 大数据理论与架构

  2. Spark源码阅读(三十五): SparkSQL之DataFrame, DataSet

    对比DataFrame, DataSet和RDD

    2020/11/25 Spark

  3. Spark源码阅读(三十四): SparkSQL之Tungsten内存优化应用

    基于Tungsten内存管理方式实现的基本数据类型和数据结构

    2020/11/20 Spark

  4. Spark源码阅读(三十三): SparkSQL之聚合

    聚合操作指的是在原始数据的基础上按照一定的逻辑进行整合从而得到新的数据, 一般通过聚合函数和分组聚合的方式汇总多行的信息

    2020/11/18 Spark

  5. Spark源码阅读(三十二): SparkSQL之Join

    Spark SQL对Join的解析和执行过程

    2020/11/13 Spark

  6. Spark源码阅读(三十一): SparkSQL之物理计划

    物理计划阶段,Spark SQL 根据逻辑算子树得到物理算子树。与逻辑计划的平台无关性不同,物理计划是与底层平台紧密相关的

    2020/11/08 Spark

  7. Spark源码阅读(三十): SparkSQL之优化逻辑计划

    解析过的逻辑计划需要进行优化

    2020/11/05 Spark

  8. Spark源码阅读(二十九): SparkSQL之解析逻辑计划

    Anlysis阶段所起到的主要作用就是将逻辑算子树中未被解析的UnresolvedRelation和UnresolvedAttribute两种对象解析成Typed对象

    2020/11/05 Spark

  9. Spark源码阅读(二十八): SparkSQL之unresolved逻辑计划

    SQL语句经由ANTLR4解析树转换为未解析的逻辑算子树,逻辑计划本质上是一种中间过程表示,与Spark平台无关,后续阶段会进一步解析占位符并映射为可执行的物理计划

    2020/10/21 Spark

  10. Spark源码阅读(二十七): SparkSQL之编译器ANTLR4

    简述Spark SQL中对SQL语句的解析原理

    2020/10/20 Spark