Flink中精准一次的容错机制
Flink中高效而丰富的算子状态管理机制
Flink通过Window、Time、Watermark完成乱序事件处理,定义窗口以及维护和更新用户定义状态等
Flink中的有界流对应着Dataset为批处理和无界流对应着DataStream为流处理
优秀可靠的数仓体系,需要清晰的数据分层结构。即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。这里分析常见的数仓分层体系
对比DataFrame, DataSet和RDD
基于Tungsten内存管理方式实现的基本数据类型和数据结构
聚合操作指的是在原始数据的基础上按照一定的逻辑进行整合从而得到新的数据, 一般通过聚合函数和分组聚合的方式汇总多行的信息
Spark SQL对Join的解析和执行过程
物理计划阶段,Spark SQL 根据逻辑算子树得到物理算子树。与逻辑计划的平台无关性不同,物理计划是与底层平台紧密相关的
微信自动回复机器人
基于标签的用户行为日志大数据分析系统
CNN for predicting the quality of the welding
基于web的动物识别专家系统
基于spark的Apriori算法