0
点赞
收藏
分享

微信扫一扫

Flink 术语表

boomwu 2021-09-21 阅读 66
  • Checkpoint Storage
    checkpoint期间State Backend存储snapshot的地方,JobManager的Java 堆内存或文件系统

  • Flink Application Cluster
    只执行一个Application中的job的集群,生命周期与Application相同

  • Flink Job Cluster
    只执行一个job的集群,生命周期与job相同

  • Flink Cluster
    包含一个JobManager和多个TaskManager进程的分布式系统

  • Flink Session Cluster
    可接收多次job提交,session不停止则永久运行

  • Event
    一个事件是应用程序中领域状态变化的声明,事件可以是流/批处理程序的输入或输出。

  • Execution Graph/ Physical Graph/
    分布式运行时执行的逻辑图的物理转换,nodes转换为tasks,edges是数据流/数据集的输入输出或分区关系

  • Function
    用户实现的包含一段应用逻辑的Flink程序,大多数function都包含在一个对应的Operator中

  • Parallel Instance
    相同operator或function的多个并行的实例

  • Flink Application
    在main()里提交的一个或多个job,

  • Flink Job
    一个逻辑图的运行时表示,job提交由execute()完成

  • Job Graph / Logical Graph
    数据流/数据集的操作和输入输出关系的有向图。节点代表operator, 边代表operator的输入输出关系。逻辑图在提交job时生成。

  • Managed State
    由Flink 框架记录的应用程序的应用state

  • Operator
    逻辑图的节点,一个operator执行一种操作,通常由一个function执行

  • Operator Chain
    一个operator chain是两个或多个连续的不需要重分区的operator。chained operators之间可不通过网络或序列化直接转发数据。

  • Partition
    数据流/数据集中独立的子集。partition通常是某个task的输入。如果某个转换操作导致数据流/集分区改变,则称作重分区。

  • Execution Mode
    批模式或流模式

  • State Backend
    在流处理应用中,TaskManager存储state的方式:TaskManager的java堆内存或内置的RocksDB

  • Sub-Task
    负责处理数据流中一个分区的task,用sub-task时表示相同的operator或operator-chain由有多个并行的task

  • Task
    物理图的一个节点,task是任务的一个基本单位

  • Flink TaskManager
    Flink集群中的工作者进程,Task分配给TaskManager执行,

  • Transformation
    通过对数据流做某种操作而生成新的数据流,可以是one-to-one的转换,也可以是对数据流的分区或聚合

举报

相关推荐

0 条评论