大数据
hadoop-21 Yarn常用命令
常用命令
查看任务
yarn application -list
根据Application状态过滤
yarn application -list -appStates
ALL
NEW
NEW_SAVING
SUBMITTE...
hadoop-20 Yarn
Yarn资源调度器
yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
Yarn基础架构
YARN主要由
ResourceManag...
hadoop-19 数据压缩
压缩的好处和坏处
优点:
减少磁盘IO
减少磁盘存储空间
压缩原则
运算密集型的job,少用压缩
IO密集型的job,多用压缩
MR支持的压缩编码
压缩性能比较
压缩方式的选择
压缩和解压...
hadoop-18 数据清洗 ETL
ETL:Extract-Transform-Load 用来描述将数据从来源端警告抽取Extract 转换Transform 加载Load至目的端的过程
清理的过程只需要运行Mapper程序,不需要运行Reduce程序
WebLogMapper.java
...
hadoop-17 Join的多种应用
Reduce Join
Map端的主要工作,为来自不同表或文件的key/value对,打标签以区别不同来源的记录,然后用连接字段为key,其余部分和新加的标志作为value,最后进行输出。
Reduce端的主要工作,在Reduce端以连接字段作为key的分...
hadoop-16 MapTask工作机制
MapTask工作机制
ReduceTask工作机制
ReduceRask=0 表示没有Reduce阶段,输出文件个数和Map个数一致
ReduceTask默认值就是1,所以输出文件个数为1个
如果数据分布不均匀,就有可能在re...
hadoop-15 OutputFormat
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口
OutputFormat实现类
默认输出格式TextOutFormat
自定义OutputFormat
自定...