1. Spark作业gc时间过长

    在运行spark作业时,发现GC时间非常长,基本上快占task time 的三分之一了,最后通过GC日志确定了问题所在。

    2020/05/19 Spark

  2. 在spark-submit中自定义日志配置

    日志有助于debug和优化程序,对于spark程序而言,有时需要改变默认的日志配置,如调整日志输出级别,根据日志级别进行分流存储等

    2020/05/14 Spark

  3. Flink: 基本概念与架构

    Flink是一个分布式处理流式或者批量数据的系统,适用于多种数据处理应用,如实时分析,历史数据处理,迭代算法等,将它们转化为拥有流水机制和容错机制的数据流进行处理。

    2020/04/21 Flink

  4. 上帝已死,邪恶的时代 ——读《未来简史》

    对书中的内容感触颇深,记录一些自己荒诞的感悟。未来,可能正如进化论对于教徒,这是一个我不想去接受的时代。

    2020/04/18 BookReview

  5. 深入理解Java String

    解释Java String的不可变性以及字符串常量池。

    2020/03/12 Java

  6. Hive原理解析

    Hive是一个建立在Hapoop集群之上的数据仓库,依赖于HDFS的数据存储,依赖于MapReduce完成查询操作

    2020/03/10 大数据理论与架构

  7. 二分查找算法分析

    从搜索区间,终止条件和搜索策略三个方面分析二分查找算法,目标查找和上下边界的查找。

    2020/03/03 算法和数据结构

  8. YARN原理解析

    YARN(Yet Another Resource Negotiator)的设计思想就是分离资源管理和job的调度/监控

    2020/02/29 大数据理论与架构

  9. Hadoop MapReduce原理解析

    MapReduce编程模型实现了并行化,高容错的方式来处理大规模计算

    2020/02/27 大数据理论与架构

  10. HDFS原理解析

    HDFS是一个高容错,大文件存储,高吞吐量的分布式文件系统

    2020/02/25 大数据理论与架构