Spark中的事件总线用于接受事件并提交到对应的监听器中。
从未遇见一位没亏过钱的富人,却遇见过许多从未亏掉一毛钱的穷人。
Java8的新特性,函数式编程和流式操作与Scala很相似。
Scala中的模式匹配功能很强大,它是Java中的switch语句的升级版,同样可以用于替代一系列的 if/else 语句
在运行spark作业时,发现GC时间非常长,基本上快占task time 的三分之一了,最后通过GC日志确定了问题所在。
日志有助于debug和优化程序,对于spark程序而言,有时需要改变默认的日志配置,如调整日志输出级别,根据日志级别进行分流存储等
Flink是一个分布式处理流式或者批量数据的系统,适用于多种数据处理应用,如实时分析,历史数据处理,迭代算法等,将它们转化为拥有流水机制和容错机制的数据流进行处理。
对书中的内容感触颇深,记录一些自己荒诞的感悟。未来,可能正如进化论对于教徒,这是一个我不想去接受的时代。
解释Java String的不可变性以及字符串常量池。
Hive是一个建立在Hapoop集群之上的数据仓库,依赖于HDFS的数据存储,依赖于MapReduce完成查询操作
微信自动回复机器人
基于标签的用户行为日志大数据分析系统
CNN for predicting the quality of the welding
基于web的动物识别专家系统
基于spark的Apriori算法