未分类
Posted by

flink-31 容错机制

在flink中有一套完整的容错机制来保证故障后的恢复,其中最重要的就是检查点 检查点 在流处理中可以用存档读档的思路,将之前某个时间点所有的状态保存下来,这份存档就是所谓的检查点(checkpoint) 遇到故障重启的时候,我们可以从检查点中读...
Flink, 大数据
Posted by

flink-30 状态后端

在flink中状态的存储、访问以及维护,都是由一个可拔插的组件决定:状态后端(state backend) 状态后端主要复制管理本地状态的存储方式和位置 状态后端的分类 HashMapStateBackend (默认) 状态存储在内存里,将状态当作...
Flink, 大数据
Posted by

flink-29 算子状态

算子状态就是一个算子并行实例上定义的状态,作用范围被限定为当前算子任务 算子状态的实际应用场景不如Keyed State多,一般用在Source或Sink等外部系统连接的算子上,或者完全没有key定义的场景 flink的kafka连接器中就用到了算子状态 ...
Flink, 大数据
Posted by

flink-27 状态管理

在flink中算子任务,可以分为无状态和有状态两种 无状态的算子任务只需要观察每个独立事件,根据当前输入的数据直接转换输出结果。之前讲到的基本转换算子map、filter、flatMap,计算时不依赖其他数据,都属于无状态的算子。 而有状态的算子任务...
Flink, 大数据
Posted by

flink-23 基于时间的合流 双流联结

窗口联结 固定时间内两条流数据的匹配情况 flink为基于一段时间的双流合并专门提供了一个窗口联结算子,可以定义时间窗口,并将两条流中共享一个公共键(key)的数据放在窗口中配对处理。 窗口联结的调用 窗口联结在代码中的实现,首先需要调用Data...