大数据 - 第 2 页

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-03 运行模式

运行模式本地运行模式 Local模式：不需要其他任何节点资源就可以在本地执行spark代码的环境解压缩文件，并重命名文件夹为spark-local

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-02 核心模块

Spark Core 提供了Spark最基础与最核心的功能 Spark SQL 是Spark用来操作结构化数据的组件通过Spark SQL 用户可以使用SQL或者Apache Hive版本的SQL（HQL）来查询数据 Spark Stre...

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-01 spark vs hadoop

File：数据源 Mapper：将数据读取出来并打散数据 data：数据 reducer：聚合数据最后落盘File 上一次计算结果为下一次计算使用，磁盘IO会非常影响性能不适合循环迭代式数据流处理 Spark改进 ...

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-11 集成spark引擎

拷贝paimon的jar包到spark的jars目录需要使用mvn上的才可以https://mvnrepository.com/artifact/org.apache.paimon/paimon-spark-3.1

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-10 集成hive引擎

将paimon-hive-connector.xx.jar添加到hive环境

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-09 CDC集成

paimon支持多种通过模式演化将数据提取到paimon表中的方法，意味着添加的列会实时同步到paimon表中，并且不会因此重新启动同步作业。目前支持以下同步方式： mysql同步表：将mysql中的一张或多张表同步到一张paimon表中 mysq...

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-08 维表join

paimon支持lookup join语法用于从paimon查询的数据来补充维度字段要求一个表具有处理时间属性，而另一个表由查找源连接器支持案例：paimon支持flink中具有主键的表和append-only的表查找联结

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-07 系统表

快照表 Snapshots Table 通过snapshots表可以查询表的快照历史信息，包括快照中发生的记录数

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-06 DQL

批量查询在sql-client中设置执行模式为批即可

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-05 DML

插入数据 part_spec 可选，指定分区的键值对列表，多个逗号分隔，可以使用类型文字如：date'2022-01-01' column_list 可选，指定以逗号分隔的字段列表包括除静态分区外的所有字段 value_e...