Blog
hadoop-16 MapTask工作机制
MapTask工作机制
ReduceTask工作机制
- ReduceRask=0 表示没有Reduce阶段,输出文件个数和Map个数一致
- ReduceTask默认值就是1,所以输出文件个数为1个
- 如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜
- ReduceTask数量并不是任意设置,还要考虑业务需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask
- 具体多少个ReduceTask需要根据集群性能而定
- 如果分区数不是1,但是ReduceTask为1,是否执行分区过程
- 不执行分区过程,因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行