Spark, 大数据
Posted by

spark-04 运行架构

Spark运行架构 运行架构 Driver表示master负责管理整个集群中作业任务调度 图形中的Executor则是slave,负责实际执行任务 Driver spark驱动器节点,用于执行spark任务中的main方法,负责...
Spark, 大数据
Posted by

spark-01 spark vs hadoop

File:数据源 Mapper:将数据读取出来并打散数据 data:数据 reducer:聚合数据 最后落盘File 上一次计算结果为下一次计算使用,磁盘IO会非常影响性能 不适合循环迭代式数据流处理 Spark改进 ...
Paimon, 大数据
Posted by

paimon-09 CDC集成

paimon支持多种通过模式演化将数据提取到paimon表中的方法,意味着添加的列会实时同步到paimon表中,并且不会因此重新启动同步作业。 目前支持以下同步方式: mysql同步表:将mysql中的一张或多张表同步到一张paimon表中 mysq...
Paimon, 大数据
Posted by

paimon-08 维表join

paimon支持lookup join语法 用于从paimon查询的数据来补充维度字段 要求一个表具有处理时间属性,而另一个表由查找源连接器支持 案例:paimon支持flink中具有主键的表和append-only的表查找联结