目录
大数据第12章 IBM InfoSphere BigInsights
第11章 Hadoop 基础
在众多的大数据技术中,Hadoop是一个著名的大数据技术,其主要优点是具有快速处理大数据集的能力。
与传统技术不同,Hadoop不会在内存中复制整个远程数据来执行计算,而是在数据存储处执行任务。
Hadoop减轻了网络与服务期间的通信负荷。
Hadoop还有一个优点,能够在保证分布式环境中的容错性的同时运行程序。为了确保该优点的实施,它通过复制服务器上的数据来防止数据丢失。
IBM InfoSphere BigInsights的基本版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他一些开源工具。
本篇将以 IBM InfoSphere BigInsights 为主线,全面介绍 Hadoop 的主要组件。这些组件包括:① 分布式文件系统 HDFS; ② Hadoop 的编程模型 MapReduce: ③ 大数据查询语言JAQL;④大数据仓库 Hive 与 HBase;⑤ MapReduce 编码的更高级别的编程环境 Pig;⑥ Hadoop 与结构化数据存储间传送批量数据的工具 Sgoop;⑦ 旨在收集、汇总与将来自不同源的日志数据移动到中央位置的一种分布式系统 Flume; ⑧ 管理 Hadoop 工作流的工具 Oozie;⑨ 用于管理集群同步的工具 ZooKeeper; @ Hadoop 的机器学习组件 Mahout。
11.1 大数据与Hadoop
Hadoop的核心由HDFS和MapReduce组成。
Hadoop的基本框架:通用模块、HDFS(分布式存储)、YARN框架、MapReduce(分布式计算)。
11.2 Hadoop框架的主要组件
Hadoop框架的主要组件包括:HDFS、MapReduce、Jaql、Hive与Hue、Pig、Sqoop、Flume、Hadoop Streaming、Oozie、HBase、FlumNG、Whirr、Mahout、Fuse、Zookeeper。
11.3 用Hadoop分析大数据
关系数据库模型是主要的数据模型,主要有:表(Table)和元组(Tuple)。
表(Table)
在关系数据模型中,关系以表的格式存储。这个格式存储了实体间的关系。一个表具有行和列,其中行表示记录,列表示属性。
元组(Tuple)
表单的一行,包含关系的单个记录,称为元组。元组与属性的关系
11.4 Hadoop分布式文件系统——HDFS
cat
用法:hadoop fs –cat URI[URI…]
将原路径复制到标准输出
chgrp
用法:hadoop fs –chgrp [-R] GROUP URI[URI…]
更改文件的组关联
使用-R,递归的=地通过目录结构进行更改
chmod
用法:hadoop fs –chmod [-R]<MODE[,MODE]…|OCTALMODE>
更改文件权限
使用-R,递归地通过目录结构进行更改
chown
用法:hadoop fs –chown [-R] [OWNER][:[GROUP]]URI[URI]
使用-R,递归地通过目录结构进行更改
copyFromLocal
用法:hadoop fs –copyFromLocal<localsrc>URI:
copyToLocal
用法:hadoop fs –copyToLocal [-ignoreCre] [-crc] URI<localdst>
count
用法:hadoop fs –count[-q]<path>
统计与指定文件模式匹配的路径下的目录、文件和字节数。
输出栏为: DIR_COUNT,FILE_COUNT,COUNT_SIZE FILE_NAME
用-q输出的栏为:
QUOAT,REMAINING_QUATA,SPACE_QUOTA,
REMAINING_SPACE_QUATA,DIR_COUNT,FILE_COUNT,
CONTENT_SIZE,FILE_NAME
cp
用法:hadoop fs –cp URI[URI…]<dest>
从源文件拷贝到目标文件
该命令允许多个源文件,但目标必须是一个目录
du
用法:hadoop fs –du URI[URI…]
显示包含在目录中的文件的合计长度或只有一个文件的文件长度
dus
用法:hadoop fs –dus <args>
显示文件的总计长度
expunge
用法:hadoop fs -expunge
清空垃圾
get
用法:hadoop fs –get [-ignoreCre][-crc]<src><localdst>
将文件拷贝到本地文件系统
—CRC校验失败的文件可以用-ignoreCre选项复制。
—可以用-crc选项复制文件和CRC.
getmerge
用法:hadoop fs -getmerge<src><localdst>[addn1]
将源文件和目标文件作为输出,源文件中的连接文件连接到目标本地文件。
可以设置一个附加选项来在每个文件的末尾添加换行符
Is
用法:hadoop fs -Is<args>
对于文件,使用下面格式返回文件中的统计信息:
—permissions number_of_replicas userid groupid filesize modification_date modification_time filemane
对于目录,它将返回其直接子目录列表,如在UNIX中。目录列表如下:
—permissions userid grougid modification_date modification_time dirname
Isr
用法:hadoop fs –Isr<args>
Is的递归版本。与Unix的Is –R相似。
mkdir
用法:hadoop fs –mkdir<paths>
将uri作为路径参数并创建目录。这种行为非常像Unix mkdir –p沿路径创建父目录
mv
用法:hadoop fs –mv URI[URI…]<dest>
将文件从源移动到目标
这个命令允许多个源。在这种情况下,目标必须是一个目录。
跨文件系统移动文件是不允许的。
put
用法:hadoop fs –put<localsrc>…<dst>
将单源或多源从本地文件系统拷贝到目标文件系统
从stdin中读取输入并写入目标文件系统
注意,它可以是同一个文件系统。
rm
用法:hadoop fs –rm[-skip Trash]URI[URI…]
删除指定参数的文件
仅删除非空目录及文件
rmr
用法:hadoop fs –rmr[-skipTrash]URI[URI…]
删除的迭代版本
setrep
用法:hadoop fs –setrep[-w][ -R]<path>
改变文件的复制因子
stat
用法:hadoop fs –stat URI[URI…]
返回路径上的统计信息
tail
用法:hadoop fs –tail[-f] URI
将文件的最后1K字节显示到stdout中。-f选项可用于Unix中。
test
用法:hadoop fs –test-[ezd] URI
-e 查看文件是否存在,如果存在则返回0。
-z 查看文件的长度是否为0,如果为真,则返回0。
-d 查看路径是否是目录,如果是真,则返回0。
text
用法:hadoop fs –text<src>
将原文和输出文件转换为文本格式
touchz
用法:hadoop fs –touchz URI[URI]
创建长度为0的文件
大数据第12章 IBM InfoSphere BigInsights
一、实验内容
请独立完成12.3的练习,提交练习结果。(提交练习过程中的实施步骤和相关界面截图)
二、实验目的
IBM InfoSphereBigInsights是一个用于分析与可视化的大数据平台,是在Apache Hadoop开源的分布式计算平台上开发的。
InfoSphereBigInsights可以帮助企业或机构中的应用程序开发人员、数据科学家和管理人员快速构建和部署自定义分析系统,从数据中获取有用的价值。这些数据通常集成到现有的数据库、数据仓库和商业智能基础设施中。通过使用 InfoSphereBigInsights,用户可以从这些数据中提取新的内涵,从而增强对业务的了解。
三、实验设备
PC
四、实验步骤
1.下载与安装IBM
步骤一:进入官网
https://www-01.ibm.com/marketing/iwm/iwm/web/preLogin.do?source=swg-i bmibqse&S_CMP=web_dwchina_rt_swd&S_PKG=ov13483〈=zh_CN
步骤2:注册IBM账号
注册后并登陆,同意协议,进入下一界面。
下载 3.0.0.2 版本镜像,下载完成后在进行解压缩。
打开 Vmware,点击打开虚拟机。进入到解压目录,打开虚拟机配置文件,配置结束后可开启此虚拟机。
2.环境配置
VMware映像的设置参数如下图所示。
3.入门练习
五、实验结果
六、实验小结
1. 通过练习,可以更好的管理大数据环境。
2. IBM所提供的加速,对开发和实现大数据分析应用程序提供了良好的解决方案。