大数据
spark-02 核心模块
Spark Core
提供了Spark最基础与最核心的功能
Spark SQL
是Spark用来操作结构化数据的组件
通过Spark SQL 用户可以使用SQL或者Apache Hive版本的SQL(HQL)来查询数据
Spark Stre...
spark-01 spark vs hadoop
File:数据源
Mapper:将数据读取出来并打散数据
data:数据
reducer:聚合数据
最后落盘File
上一次计算结果为下一次计算使用,磁盘IO会非常影响性能
不适合循环迭代式数据流处理
Spark改进
...
paimon-11 集成spark引擎
拷贝paimon的jar包到spark的jars目录
需要使用mvn上的 才可以https://mvnrepository.com/artifact/org.apache.paimon/paimon-spark-3.1
paimon-09 CDC集成
paimon支持多种通过模式演化将数据提取到paimon表中的方法,意味着添加的列会实时同步到paimon表中,并且不会因此重新启动同步作业。
目前支持以下同步方式:
mysql同步表:将mysql中的一张或多张表同步到一张paimon表中
mysq...
paimon-08 维表join
paimon支持lookup join语法 用于从paimon查询的数据来补充维度字段
要求一个表具有处理时间属性,而另一个表由查找源连接器支持
案例:paimon支持flink中具有主键的表和append-only的表查找联结
paimon-05 DML
插入数据
part_spec
可选,指定分区的键值对列表,多个逗号分隔,可以使用类型文字如:date'2022-01-01'
column_list
可选,指定以逗号分隔的字段列表
包括除静态分区外的所有字段
value_e...