做你想做的并且是你爱好的

Blog

Spark, 大数据

spark-01 spark vs hadoop

Posted by 蓝染君

On 2023年 10月 7日

已关闭评论

File：数据源

Mapper：将数据读取出来并打散数据

data：数据

reducer：聚合数据

最后落盘File

上一次计算结果为下一次计算使用，磁盘IO会非常影响性能

不适合循环迭代式数据流处理

Spark改进

Spark将落盘计算结果放到了Memory内存中

About 蓝染君

喜爱编程开发的程序猿 View all posts by 蓝染君

Newer spark-02 核心模块

Older paimon-11 集成spark引擎

Start typing to see posts you are looking for.