Hadoop, 大数据

hadoop-16 MapTask工作机制

MapTask工作机制

ReduceTask工作机制

  • ReduceRask=0 表示没有Reduce阶段,输出文件个数和Map个数一致
  • ReduceTask默认值就是1,所以输出文件个数为1个
  • 如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜
  • ReduceTask数量并不是任意设置,还要考虑业务需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask
  • 具体多少个ReduceTask需要根据集群性能而定
  • 如果分区数不是1,但是ReduceTask为1,是否执行分区过程
    • 不执行分区过程,因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行