Hadoop, 大数据
Posted by

hadoop-20 Yarn

Yarn资源调度器 yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基础架构 YARN主要由 ResourceManag...
Hadoop, 大数据
Posted by

hadoop-19 数据压缩

压缩的好处和坏处 优点: 减少磁盘IO 减少磁盘存储空间 压缩原则 运算密集型的job,少用压缩 IO密集型的job,多用压缩 MR支持的压缩编码 压缩性能比较 压缩方式的选择 压缩和解压...
Hadoop, 大数据
Posted by

hadoop-17 Join的多种应用

Reduce Join Map端的主要工作,为来自不同表或文件的key/value对,打标签以区别不同来源的记录,然后用连接字段为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作,在Reduce端以连接字段作为key的分...
Hadoop, 大数据
Posted by

hadoop-12 InputFormat

InputFormat数据输入 切片与MapTask并行度决定机制 问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 MapTask并行度决定机制 数据块:Block是HDFS物理上把数据块分成一...
Hadoop, 大数据
Posted by

hadoop-11 hadoop 序列化

序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输 反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象 自定义bean对象实现序列化接口(Writeable) 实现bean对象序列化步骤...