Hadoop, 大数据
Posted by

hadoop-12 InputFormat

InputFormat数据输入 切片与MapTask并行度决定机制 问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 MapTask并行度决定机制 数据块:Block是HDFS物理上把数据块分成一...
Hadoop, 大数据
Posted by

hadoop-11 hadoop 序列化

序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输 反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象 自定义bean对象实现序列化接口(Writeable) 实现bean对象序列化步骤...
Hadoop, 大数据
Posted by

hadoop-10 MapReduce

MapReduce定义 是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上 优点: ...