Spark，控制输入 group by 的每个group的row数量

祈澈菇凉 2022-11-06 阅读 108

inputDF.withColumn("row_number", 
    row_number().over(Window.partitionBy("the_id").orderBy("the_id")) - 1)
    .withColumn("bucket", col("row_number") / 10)
    .rdd.groupBy(row => (row.getAs[String]("the_id") + "---" + row.getAs[Long]("bucket")))
    .repartition(10000)
    .map(pair => {

其实等于还是只能是二次groupby 的方法

0 条评论

祈澈菇凉

关注