Paimon, 大数据

paimon-11 集成spark引擎

拷贝paimon的jar包到spark的jars目录

需要使用mvn上的 才可以https://mvnrepository.com/artifact/org.apache.paimon/paimon-spark-3.1

cp paimon-spark-3.1.xx.jar /data/spark-3.0.0/jars

catalog

启动spark-sql时 指定catalog,切换到catalog后spark无法直接访问,可以使用spark_catalog.${database_name}.${table_name}来访问spark表

注册catalog可以启动时指定,也可以配置在spark-defaults.conf中

文件系统

spark-sql \
--conf spark.sql.catalog.fs=org.apache.paimon.spark.SparkCatalog \
--conf spark.sql.catalog.fs.warehouse=hdfs://hadoop002:8020/paimon/spark

其中参数前缀为:spark.sql.catalog.

use fs.default;

hive catalog

spark-sql \
--conf spark.sql.catalog.hive=org.apache.paimon.spark.SparkCatalog \
--conf spark.sql.catalog.hive.warehouse=hdfs://hadoop002:8020/paimon/hive \
--conf spark.sql.catalog.hive.metastore=hive \
--conf spark.sql.catalog.hive.uri=thrift://hadoop001:9083