0
点赞
收藏
分享

微信扫一扫

Spark,统计一个大hive表里所有文本里高频的字,海量数据的 word count,会内存溢出

得一道人 2022-07-27 阅读 11


不十分精确的话,
可以分两步groupby,
第一步按 每个句子的前五个字 groupby,先去掉重复次数比如大于100次的句子,
第二步再按 字 groupby,


举报

相关推荐

0 条评论