架构地图
序序叨叨
最新梳理了2021年以大数据为中心的技术架构地图,一些重点的技术已经用粗体标出。计划对照地图逐一打卡,查漏补缺。
大数据从2014年、2015年大火以来,现在已经度过了爆发期、泡沫期,趋于成熟和产业落地,就此架构地图简单说明几点,欢迎各位老师交流补充。
传统的大数据三件套
- 大数据采集
- 大数据存储
- 大数据计算
采集那里没有特别在技术地图上写明。一般就是sqoop,flume这两个,或者加一个阿里巴巴开源的canal(支持Mysql基于数据库增量日志解析,提供增量数据订阅&消费)。存储目前主流还是Hadoop系,可以关注一下对象存储。大数据计算领域Spark还是标杆。
服务器与Linux
大数据的工作与Linux等操作系统打交道的频次远远高于传统后端开发。大数据组件的部署和维护也对服务器知识有一定的需求。这方面的知识多多益善。
Linux主要是有几个流行的发行版,再者就是关注一下6/7/8大版本的命令差异。
数学
做大数据业务的话没有对高等数学有很高的要求。想更上一层楼的话,比如目标是数据科学家,那时候再有的放矢地去钻。不过,良好的数据结构与算法基础大有裨益,跟具体做什么工作关系不大,更像是一种思维逻辑的训练。
计科的知识学而时习之,基本功扎实了,才能修好内功。
云计算
PaaS和DaaS的概念已经清晰了。大数据服务上云,数据即服务的趋势明朗,云计算的边角料该掌握就掌握,顺势而为。
重要的方向
数据质量、数据治理和数据湖正当其时。如果只会大数据三件套,已经无法突破卷的结界了,提升综合能力,成为π型人才才能更加可靠。
未雨绸缪,时不我待。
更新于2021/5/18
暮小七