Checkpoint Storage
checkpoint期间State Backend存储snapshot的地方,JobManager的Java 堆内存或文件系统Flink Application Cluster
只执行一个Application中的job的集群,生命周期与Application相同Flink Job Cluster
只执行一个job的集群,生命周期与job相同Flink Cluster
包含一个JobManager和多个TaskManager进程的分布式系统Flink Session Cluster
可接收多次job提交,session不停止则永久运行Event
一个事件是应用程序中领域状态变化的声明,事件可以是流/批处理程序的输入或输出。Execution Graph/ Physical Graph/
分布式运行时执行的逻辑图的物理转换,nodes转换为tasks,edges是数据流/数据集的输入输出或分区关系Function
用户实现的包含一段应用逻辑的Flink程序,大多数function都包含在一个对应的Operator中Parallel Instance
相同operator或function的多个并行的实例Flink Application
在main()里提交的一个或多个job,Flink Job
一个逻辑图的运行时表示,job提交由execute()完成Job Graph / Logical Graph
数据流/数据集的操作和输入输出关系的有向图。节点代表operator, 边代表operator的输入输出关系。逻辑图在提交job时生成。Managed State
由Flink 框架记录的应用程序的应用stateOperator
逻辑图的节点,一个operator执行一种操作,通常由一个function执行Operator Chain
一个operator chain是两个或多个连续的不需要重分区的operator。chained operators之间可不通过网络或序列化直接转发数据。Partition
数据流/数据集中独立的子集。partition通常是某个task的输入。如果某个转换操作导致数据流/集分区改变,则称作重分区。Execution Mode
批模式或流模式State Backend
在流处理应用中,TaskManager存储state的方式:TaskManager的java堆内存或内置的RocksDBSub-Task
负责处理数据流中一个分区的task,用sub-task时表示相同的operator或operator-chain由有多个并行的taskTask
物理图的一个节点,task是任务的一个基本单位Flink TaskManager
Flink集群中的工作者进程,Task分配给TaskManager执行,Transformation
通过对数据流做某种操作而生成新的数据流,可以是one-to-one的转换,也可以是对数据流的分区或聚合