0

点赞

收藏

分享

Spark，统计一个大hive表里所有文本里高频的字，海量数据的 word count，会内存溢出

得一道人 2022-07-27 阅读 11

标签: 编程开发编程语言

不十分精确的话，
可以分两步groupby，
第一步按每个句子的前五个字 groupby，先去掉重复次数比如大于100次的句子，
第二步再按字 groupby，

0 条评论

关注