蓝染君 - 第 10 页

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-16 MapTask工作机制

MapTask工作机制 ReduceTask工作机制 ReduceRask=0 表示没有Reduce阶段，输出文件个数和Map个数一致 ReduceTask默认值就是1，所以输出文件个数为1个如果数据分布不均匀，就有可能在re...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-15 OutputFormat

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口 OutputFormat实现类默认输出格式TextOutFormat 自定义OutputFormat 自定...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-14 Shuffle机制

Shuffle机制 map方法之后reduce方法之前的数据处理过程分区Partitioner 默认分区

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-13 MapReduce工作流程

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-12 InputFormat

InputFormat数据输入切片与MapTask并行度决定机制问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度 MapTask并行度决定机制数据块：Block是HDFS物理上把数据块分成一...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-11 hadoop 序列化

序列化就是把内存中的对象转换成字节序列（或其他数据传输协议），以便存储到磁盘（持久化）和网络传输反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象自定义bean对象实现序列化接口（Writeable）实现bean对象序列化步骤...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-10 MapReduce

MapReduce定义是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个hadoop集群上优点： ...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-09 DataNode工作机制

个人理解 DataNode启动后向NameNode汇报块信息 NameNode收到DataNode汇报后确定该DataNode还存活 DataNode每隔6小时向NameNode汇报一次块信息每隔3秒向NameNode发送一次心跳告知该Dat...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-08 NameNode和SecondaryNameNode

NN和2NN工作机制 Namenode 启动NameNode时候加载edits_inprogress_001和fsimage到内存中 fsimage存储操作记录整合后的数据客户端对元数据进行增删等操作 edits_inprogress_...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-07 hdfs的读写流程

hdfs写入数据流程客户端创建一个分布式文件系统客户端客户端向NameNode请求上传文件 /user/atguigu/ss.avi NameNode检查目录树是否可以创建文件检查权限检查目录结构（是否存在） Nam...

Posts by 蓝染君

About 蓝染君