首页
推荐
热点
专题
PHP
Java
Python
Andriod
IOS
C#
前端
数据库
人工智能
程序开发
架构
安全
运维
资讯
微课
资源
0
点赞
收藏
分享
微信扫一扫
Spark,统计一个大hive表里所有文本里高频的字,海量数据的 word count,会内存溢出
得一道人
2022-07-27
阅读 11
标签:
编程开发
编程语言
不十分精确的话,
可以分两步groupby,
第一步按 每个句子的前五个字 groupby,先去掉重复次数比如大于100次的句子,
第二步再按 字 groupby,
举报
相关推荐
java 一个大对象占用内存
成员变量
构造函数
Java
后端开发
杨沐涵
阅读 19
收藏 0
评论 0
2024-01-23
怎么设计一个自己的大模型?设计一个大模型需要哪些能力?
语言模型
人工智能
大模型
ai
LLM
Redis
数据库
东方小不点
阅读 17
收藏 0
评论 0
2024-11-12
hive怎么删除一个库中的所有表
Hive
解决方案
流程图
大数据
得一道人
阅读 39
收藏 0
评论 0
2023-11-22
使用ForkJoin去处理一个大json读取的操作
json
全栈顾问
阅读 162
收藏 0
评论 0
2022-01-03
一个大数据查找算法的解题思路
日记本
程序员知识圈
阅读 205
收藏 0
评论 0
2021-09-29
Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中
java
spring
MD5
witmy
阅读 52
收藏 0
评论 0
2023-12-24
我有一个大胆的想法
数据
业务流程
自动生成
编程语言
九月的栩
阅读 205
收藏 0
评论 0
2022-07-14
计数+分治求海量数据中重复最多的一个
海量数据处理
IP
ios
临时文件
系统/运维
小铺有酒一两不够
阅读 160
收藏 0
评论 0
2022-12-13
关于一个大map和多个小map的性能对比
i++
查找时间
java
编程语言
杰森wang
阅读 159
收藏 0
评论 0
2022-11-07
spring boot简介-----简化Spring应用开发的一个框架,整个Spring技术栈的一个大整合
spring
war包
redis
编程语言
夏沐沐
阅读 171
收藏 0
评论 0
2022-05-27
查看更多相关推荐
0
条评论
搜索
得一道人
关注
《Operating System Concepts》阅读笔记:p460-p4470
java 加盐可以反向吗
2025年软考报名时间的地域分布与热门地区分析
高效利用Python爬虫开发批量获取商品信息
前端-计算机网络篇
探索 Java 并发库的奇妙世界
Qt日志管理
【C#设计模式(15)——命令模式(Command Pattern)】
MAE(Mean Absolute Error,平均绝对误差)和 MSE(Mean Squared Error,均方误差)
sql server 2012的默认安装位置