2023 年 9 月 - 第 8 页

26 9 月

Posted by 蓝染君

hadoop-20 Yarn

Yarn资源调度器 yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基础架构 YARN主要由 ResourceManag...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-19 数据压缩

压缩的好处和坏处优点：减少磁盘IO 减少磁盘存储空间压缩原则运算密集型的job，少用压缩 IO密集型的job，多用压缩 MR支持的压缩编码压缩性能比较压缩方式的选择压缩和解压...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-18 数据清洗 ETL

ETL：Extract-Transform-Load 用来描述将数据从来源端警告抽取Extract 转换Transform 加载Load至目的端的过程清理的过程只需要运行Mapper程序，不需要运行Reduce程序 WebLogMapper.java ...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-17 Join的多种应用

Reduce Join Map端的主要工作，为来自不同表或文件的key/value对，打标签以区别不同来源的记录，然后用连接字段为key，其余部分和新加的标志作为value，最后进行输出。 Reduce端的主要工作，在Reduce端以连接字段作为key的分...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-16 MapTask工作机制

MapTask工作机制 ReduceTask工作机制 ReduceRask=0 表示没有Reduce阶段，输出文件个数和Map个数一致 ReduceTask默认值就是1，所以输出文件个数为1个如果数据分布不均匀，就有可能在re...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-15 OutputFormat

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口 OutputFormat实现类默认输出格式TextOutFormat 自定义OutputFormat 自定...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-14 Shuffle机制

Shuffle机制 map方法之后reduce方法之前的数据处理过程分区Partitioner 默认分区

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-13 MapReduce工作流程

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-12 InputFormat

InputFormat数据输入切片与MapTask并行度决定机制问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度 MapTask并行度决定机制数据块：Block是HDFS物理上把数据块分成一...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-11 hadoop 序列化

序列化就是把内存中的对象转换成字节序列（或其他数据传输协议），以便存储到磁盘（持久化）和网络传输反序列化就是将收到的字节序列或者是磁盘的持久化数据转换成内存中的对象自定义bean对象实现序列化接口（Writeable）实现bean对象序列化步骤...

Monthly Archives: 9 月 2023