0
点赞
收藏
分享

微信扫一扫

大数据架构技术地图-学习大纲

架构地图

序序叨叨

最新梳理了2021年以大数据为中心的技术架构地图,一些重点的技术已经用粗体标出。计划对照地图逐一打卡,查漏补缺。
大数据从2014年、2015年大火以来,现在已经度过了爆发期、泡沫期,趋于成熟和产业落地,就此架构地图简单说明几点,欢迎各位老师交流补充。

传统的大数据三件套

  • 大数据采集
  • 大数据存储
  • 大数据计算

采集那里没有特别在技术地图上写明。一般就是sqoop,flume这两个,或者加一个阿里巴巴开源的canal(支持Mysql基于数据库增量日志解析,提供增量数据订阅&消费)。存储目前主流还是Hadoop系,可以关注一下对象存储。大数据计算领域Spark还是标杆。

服务器与Linux

大数据的工作与Linux等操作系统打交道的频次远远高于传统后端开发。大数据组件的部署和维护也对服务器知识有一定的需求。这方面的知识多多益善。
Linux主要是有几个流行的发行版,再者就是关注一下6/7/8大版本的命令差异。

数学

做大数据业务的话没有对高等数学有很高的要求。想更上一层楼的话,比如目标是数据科学家,那时候再有的放矢地去钻。不过,良好的数据结构与算法基础大有裨益,跟具体做什么工作关系不大,更像是一种思维逻辑的训练。
计科的知识学而时习之,基本功扎实了,才能修好内功。

云计算

PaaSDaaS的概念已经清晰了。大数据服务上云,数据即服务的趋势明朗,云计算的边角料该掌握就掌握,顺势而为。

重要的方向

数据质量、数据治理和数据湖正当其时。如果只会大数据三件套,已经无法突破卷的结界了,提升综合能力,成为π型人才才能更加可靠。

未雨绸缪,时不我待。

更新于2021/5/18
暮小七

举报

相关推荐

0 条评论