Spark1：概述-CFANZ编程社区

Spark1：概述

一、概述
二、Spark与Hadoop的对比

1.从组成上来看
2.从框架上来看
3.从功能上来看

①数据存储内存
②Spark比Hadoop更通用
③容错性
④可用性

三、Spark总体流程

1.整体架构

①Spark Core
②Spark SQL
③Spark Streaming
④Mllib
⑤GraphX
目标

2、运行模式

四、小结
参考

Spark1：概述_SQL

一、概述

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
Spark Core提供了Spark最基础与最核心的功能
Spark SQL是Spark用来操作结构化数据的组件。
Spark Streaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API。

二、Spark与Hadoop的对比

	MapReduce	Spark
数据存储机构	磁盘HDFS文件系统	使用内存构建弹性分布式数据集。RDD对数据进行运算和缓存
编程范式	Map+Reduce	DAG（有向无环图）
中间结果存储	中间结果落地磁盘，IO及序列化反序列化	代价比较大
运行方式	Task以进程方式维护，任务启动慢	Task以程方式维护，任务启动快

1.从组成上来看

Hadoop
Java编写，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。
HDFS作为Hadoop分布式文件系统，存储所有数据，支持Hadoop的所有服务。
MapReduce是一种编程模型，作为Hadoop的分布式计算模型。
Hbase是Bigtable的开源实现，是基于HDFS的分布式数据库，擅长实时随机读/写超大规模数据集。

2.从框架上来看

MR和Spark都是数据处理框架。

3.从功能上来看

①数据存储内存

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。

②Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种，而Hadoop只提供Map和Reduce两种操作；
Spark编程模型比Hadoop更灵活。对于各个处理节点之间的通信模型，用户可以命名，物化，控制中间结果的存储、分区等。而Hadoop是唯一的Data Shuffle一种模式。
But，由于RDD的特性，Spark不适用异步细粒度更新状态的应用；不适合增量修改；

③容错性

在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个checkpoint
data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。

④可用性

Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。
Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。