Blog
hive-02 安装
安装Hive
hive3版本和hive2版本没有多大变化,主要是适用hadoop3
解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下
修改apache-hive-3.1.2-bin文件夹名为hive-3.1...
hive-01 基本概念
什么是hive
hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表并提供类SQL查询功能。
本质:将HQL转化成MapReduce程序
Hive处理的数据存储在HDFS上
Hive分析数据底层的实现是MapRedu...
hadoop-24 hadoop生产调优
HDFS 核心参数
NameNode内存生产配置
每个文件块大概150byte
namenode最小值1G,每增加1000000个block,增加1G内存
datanode最小值4G,block数或者副本数升高,都应该调大datanode的值
...
hadoop-21 Yarn常用命令
常用命令
查看任务
yarn application -list
根据Application状态过滤
yarn application -list -appStates
ALL
NEW
NEW_SAVING
SUBMITTE...
hadoop-20 Yarn
Yarn资源调度器
yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
Yarn基础架构
YARN主要由
ResourceManag...
hadoop-19 数据压缩
压缩的好处和坏处
优点:
减少磁盘IO
减少磁盘存储空间
压缩原则
运算密集型的job,少用压缩
IO密集型的job,多用压缩
MR支持的压缩编码
压缩性能比较
压缩方式的选择
压缩和解压...
hadoop-18 数据清洗 ETL
ETL:Extract-Transform-Load 用来描述将数据从来源端警告抽取Extract 转换Transform 加载Load至目的端的过程
清理的过程只需要运行Mapper程序,不需要运行Reduce程序
WebLogMapper.java
...
hadoop-17 Join的多种应用
Reduce Join
Map端的主要工作,为来自不同表或文件的key/value对,打标签以区别不同来源的记录,然后用连接字段为key,其余部分和新加的标志作为value,最后进行输出。
Reduce端的主要工作,在Reduce端以连接字段作为key的分...