大数据
flink-08 任务槽
任务槽 TaskSlots
Flink中每个TaskManager都是一个JVM进程,它可以启动多个独立的现成并执行多个子任务subask
很显然TaskManager的计算资源是有限的,并行的任务越多,每个线程的资源就会越少。那么一个TaskManager...
flink-07 并行度
并行子任务和并行度
当要处理的数据量非常大时,我们可以把一个算子操作,复制多份到多个节点,数据来了之后就可以到其中任意一个执行。这样一来,一个算子任务就被拆分成了多个并行子任务(subtasks),再将他们分发到不同节点,就真正实现了并行计算。
在Flink...
flink-06 Standalone 会话模式为例
各组件间使用Actor通信系统进行沟通
一个job对应一个jobMaster
作业管理器(JobManager)
JobManager是一个Flink集群中任务管理和调度的核心,是控制应用执行的主进程。也就是说,每个应用都应该被唯一的JobManag...
flink-05 历史服务器
History Server对外提供REST API,接受HTTP请求并使用JSON数据进行响应,Flink任务停止后,jobmanager会将已经完成任务的统计信息进行存档,History Server进程则在任务停止后可以对任务统计信息进行查询,比如:最后一次的ch...
flink-03 集群安装
集群部署
节点服务器hadoop101hadoop102hadoop103角色JobManagerTaskManagerTaskManagerTaskManager
具体安装步骤:
下载解压安装包
同上步骤
修改集群配置文件
指定...
hive-09 压缩和存储
Hadoop压缩配置
MR支持的压缩编码
压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否
为了支持...