日志有助于debug和优化程序,对于spark程序而言,有时需要改变默认的日志配置,如调整日志输出级别,根据日志级别进行分流存储等
Flink是一个分布式处理流式或者批量数据的系统,适用于多种数据处理应用,如实时分析,历史数据处理,迭代算法等,将它们转化为拥有流水机制和容错机制的数据流进行处理。
对书中的内容感触颇深,记录一些自己荒诞的感悟。未来,可能正如进化论对于教徒,这是一个我不想去接受的时代。
解释Java String的不可变性以及字符串常量池。
Hive是一个建立在Hapoop集群之上的数据仓库,依赖于HDFS的数据存储,依赖于MapReduce完成查询操作
从搜索区间,终止条件和搜索策略三个方面分析二分查找算法,目标查找和上下边界的查找。
YARN(Yet Another Resource Negotiator)的设计思想就是分离资源管理和job的调度/监控
MapReduce编程模型实现了并行化,高容错的方式来处理大规模计算
HDFS是一个高容错,大文件存储,高吞吐量的分布式文件系统
Spark中的重要模块,在Spark的函数式编程API中引入了关系数据的处理
基于web的动物识别专家系统
CNN for predicting the quality of the welding
微信自动回复机器人
coursera 数据结构基础 算法基础 高级数据结构与算法 编程题
基于spark的Apriori算法