波波说 - 第 2 页 - 用创造力赋予程序生命

09 10 月

Hive, 大数据

Posted by 蓝染君

hive-10 hive3.1.3源码编译适配spark3.3.3

一、环境准备 1）虚拟机准备准备一台虚拟机，并安装Centos7系统（带桌面） 2）安装JDK （1）卸载现有JDK

07 10 月

大数据

Posted by 蓝染君

高可用大数据集群安装教程

服务器配置软件存放路径：/opt/software/ 程序运行路径：/data/ 程序和数据分离：

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-04 运行架构

Spark运行架构运行架构 Driver表示master负责管理整个集群中作业任务调度图形中的Executor则是slave，负责实际执行任务 Driver spark驱动器节点，用于执行spark任务中的main方法，负责...

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-03 运行模式

运行模式本地运行模式 Local模式：不需要其他任何节点资源就可以在本地执行spark代码的环境解压缩文件，并重命名文件夹为spark-local

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-02 核心模块

Spark Core 提供了Spark最基础与最核心的功能 Spark SQL 是Spark用来操作结构化数据的组件通过Spark SQL 用户可以使用SQL或者Apache Hive版本的SQL（HQL）来查询数据 Spark Stre...

07 10 月

Spark, 大数据

Posted by 蓝染君

spark-01 spark vs hadoop

File：数据源 Mapper：将数据读取出来并打散数据 data：数据 reducer：聚合数据最后落盘File 上一次计算结果为下一次计算使用，磁盘IO会非常影响性能不适合循环迭代式数据流处理 Spark改进 ...

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-11 集成spark引擎

拷贝paimon的jar包到spark的jars目录需要使用mvn上的才可以https://mvnrepository.com/artifact/org.apache.paimon/paimon-spark-3.1

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-10 集成hive引擎

将paimon-hive-connector.xx.jar添加到hive环境

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-09 CDC集成

paimon支持多种通过模式演化将数据提取到paimon表中的方法，意味着添加的列会实时同步到paimon表中，并且不会因此重新启动同步作业。目前支持以下同步方式： mysql同步表：将mysql中的一张或多张表同步到一张paimon表中 mysq...

28 9 月

Paimon, 大数据

Posted by 蓝染君

paimon-08 维表join

paimon支持lookup join语法用于从paimon查询的数据来补充维度字段要求一个表具有处理时间属性，而另一个表由查找源连接器支持案例：paimon支持flink中具有主键的表和append-only的表查找联结

Blog