本篇将以 IBM InfoSphere BigInsights 为主线，全面介绍 Hadoop 的主要组件。这些组件包括：① 分布式文件系统 HDFS; ② Hadoop 的编程模型 MapReduce: ③ 大数据查询语言JAQL；④大数据仓库 Hive 与 HBase;⑤ MapReduce 编码的更高级别的编程环境 Pig;⑥ Hadoop 与结构化数据存储间传送批量数据的工具 Sgoop；⑦ 旨在收集、汇总与将来自不同源的日志数据移动到中央位置的一种分布式系统 Flume; ⑧ 管理 Hadoop 工作流的工具 Oozie;⑨ 用于管理集群同步的工具 ZooKeeper; @ Hadoop 的机器学习组件 Mahout。

11.1 大数据与Hadoop

Hadoop的核心由HDFS和MapReduce组成。

Hadoop的基本框架：通用模块、HDFS(分布式存储)、YARN框架、MapReduce(分布式计算)。

11.2 Hadoop框架的主要组件

Hadoop框架的主要组件包括：HDFS、MapReduce、Jaql、Hive与Hue、Pig、Sqoop、Flume、Hadoop Streaming、Oozie、HBase、FlumNG、Whirr、Mahout、Fuse、Zookeeper。

11.3 用Hadoop分析大数据

关系数据库模型是主要的数据模型，主要有：表(Table)和元组(Tuple)。

表(Table)

在关系数据模型中，关系以表的格式存储。这个格式存储了实体间的关系。一个表具有行和列，其中行表示记录，列表示属性。

元组(Tuple)

表单的一行，包含关系的单个记录，称为元组。元组与属性的关系

11.4 Hadoop分布式文件系统——HDFS

cat

用法：hadoop fs –cat URI[URI…]

将原路径复制到标准输出

chgrp

用法：hadoop fs –chgrp [-R] GROUP URI[URI…]

更改文件的组关联

使用-R，递归的=地通过目录结构进行更改

chmod

用法：hadoop fs –chmod [-R]<MODE[,MODE]…|OCTALMODE>

更改文件权限

使用-R，递归地通过目录结构进行更改

chown

用法：hadoop fs –chown [-R] [OWNER][:[GROUP]]URI[URI]

使用-R，递归地通过目录结构进行更改

copyFromLocal

用法：hadoop fs –copyFromLocal<localsrc>URI：

copyToLocal

用法：hadoop fs –copyToLocal [-ignoreCre] [-crc] URI<localdst>

count

用法：hadoop fs –count[-q]<path>

统计与指定文件模式匹配的路径下的目录、文件和字节数。

输出栏为: DIR_COUNT，FILE_COUNT，COUNT_SIZE FILE_NAME

用-q输出的栏为：

QUOAT，REMAINING_QUATA，SPACE_QUOTA，

REMAINING_SPACE_QUATA，DIR_COUNT，FILE_COUNT，

CONTENT_SIZE，FILE_NAME

cp

用法：hadoop fs –cp URI[URI…]<dest>

从源文件拷贝到目标文件

该命令允许多个源文件，但目标必须是一个目录

du

用法：hadoop fs –du URI[URI…]

显示包含在目录中的文件的合计长度或只有一个文件的文件长度

dus

用法：hadoop fs –dus <args>

显示文件的总计长度

expunge

用法：hadoop fs -expunge

清空垃圾

get

用法：hadoop fs –get [-ignoreCre][-crc]<src><localdst>

将文件拷贝到本地文件系统

—CRC校验失败的文件可以用-ignoreCre选项复制。

—可以用-crc选项复制文件和CRC.

getmerge

用法：hadoop fs -getmerge<src><localdst>[addn1]

将源文件和目标文件作为输出，源文件中的连接文件连接到目标本地文件。

可以设置一个附加选项来在每个文件的末尾添加换行符

Is

用法：hadoop fs -Is<args>

对于文件，使用下面格式返回文件中的统计信息：

—permissions number_of_replicas userid groupid filesize modification_date modification_time filemane

对于目录，它将返回其直接子目录列表，如在UNIX中。目录列表如下：

—permissions userid grougid modification_date modification_time dirname

Isr

用法：hadoop fs –Isr<args>

Is的递归版本。与Unix的Is –R相似。

mkdir

用法：hadoop fs –mkdir<paths>

将uri作为路径参数并创建目录。这种行为非常像Unix mkdir –p沿路径创建父目录

mv

用法：hadoop fs –mv URI[URI…]<dest>

将文件从源移动到目标

这个命令允许多个源。在这种情况下，目标必须是一个目录。

跨文件系统移动文件是不允许的。

put

用法：hadoop fs –put<localsrc>…<dst>

将单源或多源从本地文件系统拷贝到目标文件系统

从stdin中读取输入并写入目标文件系统

注意，它可以是同一个文件系统。

rm

用法：hadoop fs –rm[-skip Trash]URI[URI…]

删除指定参数的文件

仅删除非空目录及文件

rmr

用法：hadoop fs –rmr[-skipTrash]URI[URI…]

删除的迭代版本

setrep

用法：hadoop fs –setrep[-w][ -R]<path>

改变文件的复制因子

stat

用法：hadoop fs –stat URI[URI…]

返回路径上的统计信息

tail

用法：hadoop fs –tail[-f] URI

将文件的最后1K字节显示到stdout中。-f选项可用于Unix中。

test

用法：hadoop fs –test-[ezd] URI

-e 查看文件是否存在，如果存在则返回0。

-z 查看文件的长度是否为0，如果为真，则返回0。

-d 查看路径是否是目录，如果是真，则返回0。

text

用法：hadoop fs –text<src>

将原文和输出文件转换为文本格式

touchz

用法：hadoop fs –touchz URI[URI]

创建长度为0的文件

大数据第12章 IBM InfoSphere BigInsights

一、实验内容

请独立完成12.3的练习，提交练习结果。（提交练习过程中的实施步骤和相关界面截图）

二、实验目的

IBM InfoSphereBigInsights是一个用于分析与可视化的大数据平台，是在Apache Hadoop开源的分布式计算平台上开发的。

InfoSphereBigInsights可以帮助企业或机构中的应用程序开发人员、数据科学家和管理人员快速构建和部署自定义分析系统，从数据中获取有用的价值。这些数据通常集成到现有的数据库、数据仓库和商业智能基础设施中。通过使用 InfoSphereBigInsights，用户可以从这些数据中提取新的内涵，从而增强对业务的了解。