波波说 - 第 9 页 - 用创造力赋予程序生命

26 9 月

Posted by 蓝染君

hive-02 安装

安装Hive hive3版本和hive2版本没有多大变化，主要是适用hadoop3 解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下修改apache-hive-3.1.2-bin文件夹名为hive-3.1...

26 9 月

Hive, 大数据

Posted by 蓝染君

hive-01 基本概念

什么是hive hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表并提供类SQL查询功能。本质：将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS上 Hive分析数据底层的实现是MapRedu...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-24 hadoop生产调优

HDFS 核心参数 NameNode内存生产配置每个文件块大概150byte namenode最小值1G，每增加1000000个block，增加1G内存 datanode最小值4G，block数或者副本数升高，都应该调大datanode的值 ...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-23 Yarn tool接口

代码实现： WordCount.java

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-22 Yarn案例实操

创建系统快照修改yarn-site.xml配置参数如下：

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-21 Yarn常用命令

常用命令查看任务 yarn application -list 根据Application状态过滤 yarn application -list -appStates ALL NEW NEW_SAVING SUBMITTE...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-20 Yarn

Yarn资源调度器 yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基础架构 YARN主要由 ResourceManag...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-19 数据压缩

压缩的好处和坏处优点：减少磁盘IO 减少磁盘存储空间压缩原则运算密集型的job，少用压缩 IO密集型的job，多用压缩 MR支持的压缩编码压缩性能比较压缩方式的选择压缩和解压...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-18 数据清洗 ETL

ETL：Extract-Transform-Load 用来描述将数据从来源端警告抽取Extract 转换Transform 加载Load至目的端的过程清理的过程只需要运行Mapper程序，不需要运行Reduce程序 WebLogMapper.java ...

26 9 月

Hadoop, 大数据

Posted by 蓝染君

hadoop-17 Join的多种应用

Reduce Join Map端的主要工作，为来自不同表或文件的key/value对，打标签以区别不同来源的记录，然后用连接字段为key，其余部分和新加的标志作为value，最后进行输出。 Reduce端的主要工作，在Reduce端以连接字段作为key的分...

Blog