Posts by 蓝染君
hadoop-16 MapTask工作机制
MapTask工作机制
ReduceTask工作机制
ReduceRask=0 表示没有Reduce阶段,输出文件个数和Map个数一致
ReduceTask默认值就是1,所以输出文件个数为1个
如果数据分布不均匀,就有可能在re...
hadoop-15 OutputFormat
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口
OutputFormat实现类
默认输出格式TextOutFormat
自定义OutputFormat
自定...
hadoop-12 InputFormat
InputFormat数据输入
切片与MapTask并行度决定机制
问题引出
MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度
MapTask并行度决定机制
数据块:Block是HDFS物理上把数据块分成一...
hadoop-11 hadoop 序列化
序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输
反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象
自定义bean对象实现序列化接口(Writeable)
实现bean对象序列化步骤...
hadoop-10 MapReduce
MapReduce定义
是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上
优点:
...
hadoop-09 DataNode工作机制
个人理解
DataNode启动后向NameNode汇报块信息
NameNode收到DataNode汇报后确定该DataNode还存活
DataNode每隔6小时向NameNode汇报一次块信息
每隔3秒向NameNode发送一次心跳告知该Dat...
hadoop-08 NameNode和SecondaryNameNode
NN和2NN工作机制
Namenode
启动NameNode时候加载edits_inprogress_001和fsimage到内存中
fsimage存储操作记录整合后的数据
客户端对元数据进行增删等操作
edits_inprogress_...
hadoop-07 hdfs的读写流程
hdfs写入数据流程
客户端创建一个分布式文件系统客户端
客户端向NameNode请求上传文件 /user/atguigu/ss.avi
NameNode检查目录树是否可以创建文件
检查权限
检查目录结构(是否存在)
Nam...