1 hadoop是什么?
hadoop这个名词对于IT界人员来说,一点也不陌生,早在2004年,已实现了HDFS和MapReduce核心功能。2006年,Apache Hadoop项目正式启动。我们可以从官网(http://hadoop.apache.org/)查看Hadoop的最原始的概念描述。
What Is Apache Hadoop?
The Apache™ Hadoop® project developsopen-source software for reliable, scalable, distributed computing.
The Apache Hadoop software library is aframework that allows for the distributed processing of large data sets acrossclusters of computers using simple programming models. It is designed to scaleup from single servers to thousands of machines, each offering localcomputation and storage. Rather than rely on hardware to deliverhigh-availability, the library itself is designed to detect and handle failuresat the application layer, so delivering a highly-available service on top of acluster of computers, each of which may be prone to failures.
英文好的朋友,可以自己尝试翻译,我这种英文菜鸟,只好用翻译软件!!!
总得来说,Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机群集分布式处理大型数据集。
2 hadoop能为我们解决什么问题?
hadoop在社区上能这么活跃,肯定有它的优势之处,那么hadoop能为我们解决什么问题?
很多时候,我们提起hadoop,大家第一时间就会反应到hdfs能存储非结构化数据,都觉得hdfs是hadoop最有用的“功能”。确实,hdfs解决了在大数据初期时代的数据存储和分析的问题。我们只需先清楚知道,hadoop“最大的作用”是解决了大数据的存储和分析问题,这也是hadoop的核心作用。后续,我再为大家详细讲解“存储”和“分析”。
3 hadoop有什么?
hadoop主要由以下三大部分组成:
1) HDFS
2) MapReduce
3) hadoop生态系统
hadoop生态系统,包含了Hive、Hbase、pig、spark、mahout等等。