0
点赞
收藏
分享

微信扫一扫

Spark,控制输入 group by 的每个group的row数量


inputDF.withColumn("row_number", 
row_number().over(Window.partitionBy("the_id").orderBy("the_id")) - 1)
.withColumn("bucket", col("row_number") / 10)
.rdd.groupBy(row => (row.getAs[String]("the_id") + "---" + row.getAs[Long]("bucket")))
.repartition(10000)
.map(pair => {

其实等于还是只能是 二次groupby 的方法​


举报

相关推荐

0 条评论