事务具有 ACID 特性,将应用程序的多个读、写操作捆绑在一起成为一个逻辑操作单元,整个事务要么成功(提交)、要么失败(中止或回滚)。如果失败,应用程序可以安全地重试,并不会出现部分失败的情况。而事务的隔离级别为了解决事务执行过程中的并发问题。
Apache Arrow 为扁平与层级嵌套数据定义了一种语言无关的列式内存格式,能够进行有效的分析型操作。 Arrow 能够进行零拷贝数据分享与 RPC 数据传输;是一种统一的数据格式;并且支持内存分析和查询处理,是向量化计算友好的
Hudi 是具有事务、记录级别的更新与删除操作和变更流的数据湖
介绍Executor框架的整体结构,主要分析了线程池的工作原理
队列同步器AbstractQueuedSynchronizer,是用来构建锁或者其他同步组件的基础框架,在其基础上实现了Reentrantlock, ReentrantReadWriteLock, CountDownLatch等。
许多时候整个系统只需要拥有一个的全局对象,这样有利于协调系统整体的行为。
BigTable是一种针对海量结构化数据的分布式列式存储的数据库。HBase是参考BigTable论文的开源实现。
分布式系统构件之间通过传递消息可以解除相互之间的功能耦合,这样可以减轻子系统之间的依赖,使得各个子系统或者构件可以独立演进、维护或者重用。消息队列是在消息传输过程中保存消息的容器或中间件、其主要目的是提供消息路由并保障消息可靠传递。
优秀可靠的数仓体系,需要清晰的数据分层结构。即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。这里分析常见的数仓分层体系
对比DataFrame, DataSet和RDD