0
点赞
收藏
分享

微信扫一扫

实战大数据,原来是这样学的

从0基础入门到大牛,对于小白来说,它不仅需要时间的磨炼,开发经验的积累,更需要有合适的机遇与平台。无论是在传统行业还是互联网行业,近年来大数据技术的应用和发展已经相当成熟。大数据相关职位薪资高、待遇好、就业前景不错,吸引了很多有IT基础的小伙伴加入到大数据技术学习的行列中来。


接触过大数据技术的小伙伴应该比较了解,企业一般使用的大数据技术都是开源的,而且同类技术有很多种,一个完整的企业级项目实现需要多个层级技术的整合,包括数据获取、数据存储、数据计算、大数据分析以及数据可视化。大数据项目流程比较多,涉及到的技术也比较广,这就要求大数据行业从业者,有着全面的技术能力和丰富的项目经验,能够完成项目架构以及提供成熟的解决方案


今天为大家分享一本大数据实用手册《实战大数据(hadoop+spark+flink)》,全书共8章,包括大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。


这本书的作者杨俊老师,有着近10年的行业从业经验,在日常的工作和知识分享中,经常遇到读者提出的这类问题“我在A网站学习了Hadoop技术,在B网站上找到了Spark技术,然后又在C网站上了解了Flink技术,感觉东拼西凑的学习大数据,不仅技术逻辑有点懵,而且使用不同技术如何做项目也是一头雾水。”


于是杨俊老师决定编写一本以一个完整的大数据项目为主线,涵盖Hadoop、Spark、Flink等主流大数据技术,按照大数据工程师的项目开发流程,理论与实践结合,逐步推进的图书。帮助读者在学习大数据核心技术的同时,也能掌握开发大数据项目的完整流程,从而获得大数据项目开发经验。


实战大数据,原来是这样学的_spark


接下来对本书的项目做个整体介绍:


1.项目需求

【1】采集新闻网站用户浏览日志信息。

【2】统计分析排名最高的前10名新闻话题。

【3】统计分析每天哪些时段用户浏览新闻量最高。

【4】统计分析每天曝光新闻话题总量。


2.项目架构设计


实战大数据,原来是这样学的_spark_02


项目架构图中的技术在本书的项目中大多都得到了应用,而且本书会按照项目的实现流程会逐步去讲解。


如果你能看懂这张项目架构图,恭喜你快要入行大数据了。如果看不懂,也不要气馁,继续努力,本书会带你从0学会大数据核心技术与项目经验。


3.离线计算数据流程设计


实战大数据,原来是这样学的_spark_03


在离线计算数据流程中,Flume实时采集日志服务器中的数据,然后写入HBase数据库,接着通过HiveHBase集成对数据进行离线分析,紧接着可以通过Sqoop工具将离线分析结果导入MySQL数据库,最后应用层读取MySQL数据实现大屏展示。


4.实时计算数据流程设计


实战大数据,原来是这样学的_数据_04


在实时计算数据流程中,Flume实时采集日志服务器中的数据,然后写入Kafka消息队列,接着可以通过Spark Streaming或者FlinkDataStream对数据进行实时分析,最终的实时分析结果可以写入MySQL数据库,最后应用层读取MySQL数据实现大屏展示。


5.大数据平台节点规划


实战大数据,原来是这样学的_数据_05


在生产环境中,大数据集群极其重要,所以本书我们也会手把手带着大家构建分布式集群。书中的项目使用了较多的技术,哪些集群节点需要部署哪些技术服务,我们需要进行合理规划。


6.项目可视化效果


实战大数据,原来是这样学的_大数据_06


大数据项目无论是采用离线分析还是实时分析,最终的成果需要展示给公司的决策部门或者公司的用户,所以我们可以通过Java Web+Echart技术对项目进行可视化分析。


说了这么多,该如何从0实现整个大数据项目呢?


一个完整的大数据项目实施,需要经过开发环境搭建、集群环境部署、数据采集、数据存储与交换、数据离线与实时分析、大数据可视化等多个实现流程,这就要求大家系统掌握大数据技术知识。如果你是初学者,不是一篇文章就能说明白如何实现一个大数据项目,因为实现大数据项目的技术有很多,遇到的坑也比较多,如果没有系统完整的学习资料,你可能需要自己一步一步踩坑,然后才能实现你想要的效果。



举报

相关推荐

0 条评论