0
点赞
收藏
分享

微信扫一扫

Flink的整体结构

seuleyang 2022-01-11 阅读 53

一、部署层

Flink支持本地(Local)模式、集群(Cluster)模式等

二、执行引擎层

执行引擎层是核心API的底层实现,位于最低层。执行引擎层提供了支持Flink计算的全部核心实现

一、执行引擎层的主要功能

  • 支持分布式流处理
  • 从作业图(JobGraph)到执行图(ExecutionGraph)的映射、调度等
  • 为上层的API层提供基础服务
  • 构建新的组件或算子

二、执行引擎层的特点

  • 灵活性高,但开发比较复杂
  • 表达性强,可以操作状态、Time等

三、核心API层

核心API层主要对无界数据流和有界数据流进行处理,包括DataStream API和DataSet API,以及实现了更加抽闲但是表现力稍差的Table API、SQL

  • DataStream API:用于处理无界数据流,或者以流处理方式来处理有界数据流
  • DataSet API:用于对有界数据进行处理。用户可以非常方便地使用Flink提供的各种算子对分布式数据集进行处理。DataStream API和DataSet API是流处理应用程序和批处理应用程序的接口,程序在编译时生成作业图。在编译完成之后,Flink的优化器会生成不同的执行计划。根据部署方式的不同,优化之后的作业图将被提交给执行器执行。
  • Table API、SQL:用于对结构化数据进行查询,将结构化数据抽象成关系表,然后通过其提供的类SQL语言的DSL对关系表进行各种查询

四、领域库层

Flink还提供了用于特定领域的库,这些库通常被嵌入在API中,但不完全独立于API。这些库也因此可以继承API的所有特性,并与其他库集成

在API层之上构建的满足特定应用的实现计算框架(库),分别对应ing面向流处理和面向批处理这两类

  • 面向流处理支持:CEP(复杂时间处理)、基于SQL-like的操作(基于Table的关系操作)。
  • 面向批处理支持:FlinkML(机器学习库)、Alink(新开源的机器学习库)、Gelly(图计算)
举报

相关推荐

0 条评论