大数据分析相关技术学习

Spark, 大数据
Posted by

spark-01 spark vs hadoop

File:数据源 Mapper:将数据读取出来并打散数据 data:数据 reducer:聚合数据 最后落盘File 上一次计算结果为下一次计算使用,磁盘IO会非常影响性能 不适合循环迭代式数据流处理 Spark改进 ...
Paimon, 大数据
Posted by

paimon-09 CDC集成

paimon支持多种通过模式演化将数据提取到paimon表中的方法,意味着添加的列会实时同步到paimon表中,并且不会因此重新启动同步作业。 目前支持以下同步方式: mysql同步表:将mysql中的一张或多张表同步到一张paimon表中 mysq...
Paimon, 大数据
Posted by

paimon-08 维表join

paimon支持lookup join语法 用于从paimon查询的数据来补充维度字段 要求一个表具有处理时间属性,而另一个表由查找源连接器支持 案例:paimon支持flink中具有主键的表和append-only的表查找联结
Paimon, 大数据
Posted by

paimon-05 DML

插入数据 part_spec 可选,指定分区的键值对列表,多个逗号分隔,可以使用类型文字如:date'2022-01-01' column_list 可选,指定以逗号分隔的字段列表 包括除静态分区外的所有字段 value_e...