1. Spark源码阅读(二十六): SparkSQL之基本概念

    介绍Spark SQL中的基本重要概念

    2020/10/19 Spark

  2. 大数据日知录学习(六):Zookeeper

    Yahoo 开源的可拓展高吞吐分布式协调系统。ZK本质是特殊的FS,但用于存储元数据,应用数据需要单独存储

    2020/10/18 大数据理论与架构

  3. Spark源码阅读(二十五): SparkContext与SparkSession

    介绍Spark功能切入点SparkContext用来创建和操作RDD,以及一个统一的切入点SparkSession,封装了SparkConf、SparkContext和SQLContext并作为DataSet和DataFrame的切入点。

    2020/10/16 Spark

  4. Spark源码阅读(二十四):常用RDD计算接口详解

    解读RDD常用的计算接口

    2020/10/14 Spark

  5. Spark源码阅读(二十三):计算引擎之shuffle

    Spark计算引擎中的shuffle管理器

    2020/10/10 Spark

  6. 浅析字符串匹配算法

    总结常见的字符串匹配算法

    2020/10/03 算法和数据结构

  7. Spark源码阅读(二十二):计算引擎之排序器

    Spark计算引擎中的排序器

    2020/09/28 Spark

  8. Spark源码阅读(二十一):计算引擎之排序聚合基础数据结构

    主要介绍了AppendOnlyMap与PartitionedPairBuffer两种Spark自己实现的类似map和colletion的数据结构,对大量聚合运算进行了优化且实现了采样估计集合大小的特性

    2020/09/28 Spark

  9. Spark源码阅读(二十):计算引擎之Task与TaskContext

    简述task的实现细节

    2020/09/25 Spark

  10. Spark源码阅读(十九):计算引擎之task计算内存管理

    Tungsten是一种内存分配与释放的实现,包括堆内内存和堆外内存。Tungsten使用sun.misc.Unsafe直接操作系统内存,避免了在JVM中加载额外的类,也不用创建额外的对象,因而减少了不必要的内存开销,降低了GC扫描和回收的频率,提升了处理性能。堆外内存可以被精确地申请和释放,而且序列化的数据占用的空间可以被精确计算,所以相比堆内存来说降低了管理的难度,也降低了误差。

    2020/09/24 Spark