Hive, 大数据
Posted by

hive-01 基本概念

什么是hive hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表并提供类SQL查询功能。 本质:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS上 Hive分析数据底层的实现是MapRedu...
Hadoop, 大数据
Posted by

hadoop-20 Yarn

Yarn资源调度器 yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基础架构 YARN主要由 ResourceManag...
Hadoop, 大数据
Posted by

hadoop-19 数据压缩

压缩的好处和坏处 优点: 减少磁盘IO 减少磁盘存储空间 压缩原则 运算密集型的job,少用压缩 IO密集型的job,多用压缩 MR支持的压缩编码 压缩性能比较 压缩方式的选择 压缩和解压...
Hadoop, 大数据
Posted by

hadoop-17 Join的多种应用

Reduce Join Map端的主要工作,为来自不同表或文件的key/value对,打标签以区别不同来源的记录,然后用连接字段为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作,在Reduce端以连接字段作为key的分...