1. Flink: 故障恢复

    Flink中精准一次的容错机制

    2020/12/07 Flink

  2. Flink: 状态

    Flink中高效而丰富的算子状态管理机制

    2020/12/07 Flink

  3. Flink: Window、Time、Watermark

    Flink通过Window、Time、Watermark完成乱序事件处理,定义窗口以及维护和更新用户定义状态等

    2020/12/07 Flink

  4. Flink: 数据流

    Flink中的有界流对应着Dataset为批处理和无界流对应着DataStream为流处理

    2020/12/07 Flink

  5. 常见数仓分层体系

    优秀可靠的数仓体系,需要清晰的数据分层结构。即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。这里分析常见的数仓分层体系

    2020/12/04 大数据理论与架构

  6. Spark源码阅读(三十五): SparkSQL之DataFrame, DataSet

    对比DataFrame, DataSet和RDD

    2020/11/25 Spark

  7. Spark源码阅读(三十四): SparkSQL之Tungsten内存优化应用

    基于Tungsten内存管理方式实现的基本数据类型和数据结构

    2020/11/20 Spark

  8. Spark源码阅读(三十三): SparkSQL之聚合

    聚合操作指的是在原始数据的基础上按照一定的逻辑进行整合从而得到新的数据, 一般通过聚合函数和分组聚合的方式汇总多行的信息

    2020/11/18 Spark

  9. Spark源码阅读(三十二): SparkSQL之Join

    Spark SQL对Join的解析和执行过程

    2020/11/13 Spark

  10. Spark源码阅读(三十一): SparkSQL之物理计划

    物理计划阶段,Spark SQL 根据逻辑算子树得到物理算子树。与逻辑计划的平台无关性不同,物理计划是与底层平台紧密相关的

    2020/11/08 Spark