0
点赞
收藏
分享

微信扫一扫

Flink 简介(一)

_karen 2022-01-21 阅读 96

Flink 中的特点

基于流的世界观:在Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流

Spark Streaming和Flink的区别

数据模型

  • Spark 采用RDD 模型,Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合
  • Flink 基本数据模型是数据流,以及事件(Event)序列(Integer、String、Long、POJO Class)

运行时架构

  • Spark 是批计算,将DAG 划分为不同的Stage,一个Stage完成后才可以计算下一个Stage
  • Flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点进行处理

Flink 运行时的组件

Flink 运行时由两种类型的进程组成:一个JobManager 和一个或者多个TaskManager。

当JobManager 申请插槽资源时,Flink 的资源管理器会将有空闲插槽的TaskManager 分配给JobManager。

任务提交流程

任务调度原理

程序与数据流(DataFlow)

所有的Flink 程序都是由三部分组成的:Source、Transformation 和Sink。

  • Source 负责读取数据源,Transformation 利用各种算子进行处理加工,Sink 负责输出。

并行度(Parallelism)

One-to-one:stream 维护着分区以及元素的顺序(比如source 和map 之间)。这意味着map 算子的子任务看到的元素的个数以及顺序跟source 算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap 等算子都是one-to-one的对应关系。

Redistributing:stream 的分区会发生改变。每一个算子的子任务依据所选择的transformation 发送数据到不同的目标任务。例如,keyBy 基于hashCode 重分区、而broadcast 和rebalance 会随机重新分区,这些算子都会引起redistribute过程,而redistribute 过程就类似于Spark 中的shuffle 过程。

举报

相关推荐

0 条评论