Monthly Archives: 9 月 2023
hadoop-20 Yarn
Yarn资源调度器
yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
Yarn基础架构
YARN主要由
ResourceManag...
hadoop-19 数据压缩
压缩的好处和坏处
优点:
减少磁盘IO
减少磁盘存储空间
压缩原则
运算密集型的job,少用压缩
IO密集型的job,多用压缩
MR支持的压缩编码
压缩性能比较
压缩方式的选择
压缩和解压...
hadoop-18 数据清洗 ETL
ETL:Extract-Transform-Load 用来描述将数据从来源端警告抽取Extract 转换Transform 加载Load至目的端的过程
清理的过程只需要运行Mapper程序,不需要运行Reduce程序
WebLogMapper.java
...
hadoop-17 Join的多种应用
Reduce Join
Map端的主要工作,为来自不同表或文件的key/value对,打标签以区别不同来源的记录,然后用连接字段为key,其余部分和新加的标志作为value,最后进行输出。
Reduce端的主要工作,在Reduce端以连接字段作为key的分...
hadoop-16 MapTask工作机制
MapTask工作机制
ReduceTask工作机制
ReduceRask=0 表示没有Reduce阶段,输出文件个数和Map个数一致
ReduceTask默认值就是1,所以输出文件个数为1个
如果数据分布不均匀,就有可能在re...
hadoop-15 OutputFormat
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口
OutputFormat实现类
默认输出格式TextOutFormat
自定义OutputFormat
自定...
hadoop-12 InputFormat
InputFormat数据输入
切片与MapTask并行度决定机制
问题引出
MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度
MapTask并行度决定机制
数据块:Block是HDFS物理上把数据块分成一...
hadoop-11 hadoop 序列化
序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输
反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象
自定义bean对象实现序列化接口(Writeable)
实现bean对象序列化步骤...