当涉及到大数据架构的话题,我们首先要意识到大数据技术并非一蹴而就,需要系统地学习和理清。过去很多人在学习大数据技术时,可能会陷入单纯解决bug的怪圈,而缺乏对技术之间关联性的整体认识。因此,我计划从实际的关键技术出发,我们一起理清一下大数据工具框架。
大数据并不是一个系统软件,更不是一个单一的软件,它实际上是一种技术体系、一种数据处理方法,甚至可以说是一个服务平台。在这个技术体系中,涵盖了许多不同的部件,比如Hadoop服务平台。这一服务平台可以根据具体情况自由组合,具体应用需求决定了最终的架构选择。
宏观来看,大数据应用的步骤可以分为:数据源、数据存储、数据计算、数据分析以及数据应用。
下面我将列举对应的不同工具,我们一起更好地理解大数据架构。
一,数据采集工具
示例:flume数据采集框架
二,数据存储工具
示例:hfds数据存储框架
三,数据计算工具
示例:spark计算框架
四,数据分析工具
示例:python数据分析框架
五,任务调度,资源管理工具
示例:yarn资源调度框架
六:大数据平台搭建工具
图从网上查找,尽量让技术更加易懂而不让人生畏,详细了解可看《大数据技术及架构图解实战派》一书