Flink 简介（一）-CFANZ编程社区

Flink 简介（一）

Flink 中的特点

基于流的世界观：在Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流

Spark Streaming和Flink的区别

数据模型

Spark 采用RDD 模型，Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合
Flink 基本数据模型是数据流，以及事件（Event）序列（Integer、String、Long、POJO Class）

运行时架构

Spark 是批计算，将DAG 划分为不同的Stage，一个Stage完成后才可以计算下一个Stage
Flink 是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理

Flink 运行时的组件

Flink 运行时由两种类型的进程组成：一个JobManager 和一个或者多个TaskManager。

当JobManager 申请插槽资源时，Flink 的资源管理器会将有空闲插槽的TaskManager 分配给JobManager。

任务提交流程

任务调度原理

程序与数据流(DataFlow)

所有的Flink 程序都是由三部分组成的：Source、Transformation 和Sink。

Source 负责读取数据源，Transformation 利用各种算子进行处理加工，Sink 负责输出。

并行度(Parallelism)

One-to-one：stream 维护着分区以及元素的顺序（比如source 和map 之间）。这意味着map 算子的子任务看到的元素的个数以及顺序跟source 算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap 等算子都是one-to-one的对应关系。

Redistributing：stream 的分区会发生改变。每一个算子的子任务依据所选择的transformation 发送数据到不同的目标任务。例如，keyBy 基于hashCode 重分区、而broadcast 和rebalance 会随机重新分区，这些算子都会引起redistribute过程，而redistribute 过程就类似于Spark 中的shuffle 过程。

0 条评论