1. 事务与隔离

    事务具有 ACID 特性,将应用程序的多个读、写操作捆绑在一起成为一个逻辑操作单元,整个事务要么成功(提交)、要么失败(中止或回滚)。如果失败,应用程序可以安全地重试,并不会出现部分失败的情况。而事务的隔离级别为了解决事务执行过程中的并发问题。

    2022/01/17 大数据理论与架构

  2. Apache Arrow overview

    Apache Arrow 为扁平与层级嵌套数据定义了一种语言无关的列式内存格式,能够进行有效的分析型操作。 Arrow 能够进行零拷贝数据分享与 RPC 数据传输;是一种统一的数据格式;并且支持内存分析和查询处理,是向量化计算友好的

    2021/12/08 大数据理论与架构

  3. Apache Hudi overview

    Hudi 是具有事务、记录级别的更新与删除操作和变更流的数据湖

    2021/04/19 LakeHouse

  4. Executor框架与线程池

    介绍Executor框架的整体结构,主要分析了线程池的工作原理

    2021/01/12 Java

  5. AQS与Lock原理解析

    队列同步器AbstractQueuedSynchronizer,是用来构建锁或者其他同步组件的基础框架,在其基础上实现了Reentrantlock, ReentrantReadWriteLock, CountDownLatch等。

    2021/01/11 Java

  6. 线程安全的单例模式

    许多时候整个系统只需要拥有一个的全局对象,这样有利于协调系统整体的行为。

    2021/01/10 Java

  7. 大数据日知录学习(八):HBase与BigTable

    BigTable是一种针对海量结构化数据的分布式列式存储的数据库。HBase是参考BigTable论文的开源实现。

    2020/12/14 大数据理论与架构

  8. 大数据日知录学习(七):Kafka

    分布式系统构件之间通过传递消息可以解除相互之间的功能耦合,这样可以减轻子系统之间的依赖,使得各个子系统或者构件可以独立演进、维护或者重用。消息队列是在消息传输过程中保存消息的容器或中间件、其主要目的是提供消息路由并保障消息可靠传递。

    2020/12/13 大数据理论与架构

  9. 常见数仓分层体系

    优秀可靠的数仓体系,需要清晰的数据分层结构。即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。这里分析常见的数仓分层体系

    2020/12/04 大数据理论与架构

  10. Spark源码阅读(三十五): SparkSQL之DataFrame, DataSet

    对比DataFrame, DataSet和RDD

    2020/11/25 Spark