Spark
spark-05 配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。
Spark提供三个位置用来配置系统:
Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者
Java系统属性设置
环境变量...
spark-04 运行架构
Spark运行架构
运行架构
Driver表示master负责管理整个集群中作业任务调度
图形中的Executor则是slave,负责实际执行任务
Driver
spark驱动器节点,用于执行spark任务中的main方法,负责...
spark-02 核心模块
Spark Core
提供了Spark最基础与最核心的功能
Spark SQL
是Spark用来操作结构化数据的组件
通过Spark SQL 用户可以使用SQL或者Apache Hive版本的SQL(HQL)来查询数据
Spark Stre...
spark-01 spark vs hadoop
File:数据源
Mapper:将数据读取出来并打散数据
data:数据
reducer:聚合数据
最后落盘File
上一次计算结果为下一次计算使用,磁盘IO会非常影响性能
不适合循环迭代式数据流处理
Spark改进
...