spark大数据分析:spark Struct Strreaming(20)结构化流认知-CFANZ编程社区

文章目录

优点
案例
编程模型

输出模式

优点

struct Streaming构建在spark SQL之上,将数据以增量的方式连续的读物到DataFrame,DataSet中,并可以像使用静态的DataFrame.DataSet分析数据,同时支持基于事件时间的窗口操作聚合数据,通过CheckPoint以及WALs(预写日志.)机制实现消费数据"有且只有一次"

Struct Strreaming也是将数据按时间间隔整理多个批次处理,并且可以将时间处理间隔降低到100ms,精确去除重复数据

案例

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.Trigger


object StructStream01 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[*]").appName("StructStream01").getOrCreate()
    import spark.implicits._
    spark.sparkContext.setLogLevel("WARN")
    /**
     * readStream 生成DataStreamReader来从数据源读取数据
     * format 指定数据读取方式
     * option 配置选项
     * load 生成streaming DataFrame
     */
    val lines = spark.readStream.format("socket").option("host", "note01").option("port", 9999).load()
    val counts = lines.as[String].flatMap(_.split(" ")).groupBy("value").count()

    /**
     * outputMode: 指定数据输出方式,complete为全量输出
     * Trigger: 触发器,处理间隔
     * format: 输出位置
     * start: 启动程序
     */
    counts.writeStream.outputMode("complete").trigger(Trigger.ProcessingTime(3000))
      .format("console").start().awaitTermination()

  }
}