1. Spark源码阅读(三十): SparkSQL之优化逻辑计划

    解析过的逻辑计划需要进行优化

    2020/11/05 Spark

  2. Spark源码阅读(二十九): SparkSQL之解析逻辑计划

    Anlysis阶段所起到的主要作用就是将逻辑算子树中未被解析的UnresolvedRelation和UnresolvedAttribute两种对象解析成Typed对象

    2020/11/05 Spark

  3. Spark源码阅读(二十八): SparkSQL之unresolved逻辑计划

    SQL语句经由ANTLR4解析树转换为未解析的逻辑算子树,逻辑计划本质上是一种中间过程表示,与Spark平台无关,后续阶段会进一步解析占位符并映射为可执行的物理计划

    2020/10/21 Spark

  4. Spark源码阅读(二十七): SparkSQL之编译器ANTLR4

    简述Spark SQL中对SQL语句的解析原理

    2020/10/20 Spark

  5. Spark源码阅读(二十六): SparkSQL之基本概念

    介绍Spark SQL中的基本重要概念

    2020/10/19 Spark

  6. 大数据日知录学习(六):Zookeeper

    Yahoo 开源的可拓展高吞吐分布式协调系统。ZK本质是特殊的FS,但用于存储元数据,应用数据需要单独存储

    2020/10/18 大数据理论与架构

  7. Spark源码阅读(二十五): SparkContext与SparkSession

    介绍Spark功能切入点SparkContext用来创建和操作RDD,以及一个统一的切入点SparkSession,封装了SparkConf、SparkContext和SQLContext并作为DataSet和DataFrame的切入点。

    2020/10/16 Spark

  8. Spark源码阅读(二十四):常用RDD计算接口详解

    解读RDD常用的计算接口

    2020/10/14 Spark

  9. Spark源码阅读(二十三):计算引擎之shuffle

    Spark计算引擎中的shuffle管理器

    2020/10/10 Spark

  10. 浅析字符串匹配算法

    总结常见的字符串匹配算法

    2020/10/03 算法和数据结构