0
点赞
收藏
分享

微信扫一扫

大数据技术⑥|大数据第11章·Hadoop 基础|大数据第12章·IBM InfoSphere BigInsights|大数据技术|20:20~21:20

 

目录

第11章 Hadoop 基础

11.1 大数据与Hadoop

11.2 Hadoop框架的主要组件

11.3 用Hadoop分析大数据

表(Table)

元组(Tuple)

11.4 Hadoop分布式文件系统——HDFS

cat

chgrp

chmod

chown

count

cp

du

dus

expunge

get

getmerge

Is

Isr

mkdir

mv

put

rm

rmr

setrep

stat

tail

test

text

touchz


大数据第12章 IBM InfoSphere BigInsights    

 一、实验内容

二、实验目的

三、实验设备

四、实验步骤

1.下载与安装IBM

步骤一:进入官网

步骤2:注册IBM账号

2.环境配置

3.入门练习

五、实验结果

六、实验小结


第11章 Hadoop 基础

在众多的大数据技术中,Hadoop是一个著名的大数据技术,其主要优点是具有快速处理大数据集的能力。

与传统技术不同,Hadoop不会在内存中复制整个远程数据来执行计算,而是在数据存储处执行任务。

Hadoop减轻了网络与服务期间的通信负荷。

Hadoop还有一个优点,能够在保证分布式环境中的容错性的同时运行程序。为了确保该优点的实施,它通过复制服务器上的数据来防止数据丢失。


IBM InfoSphere BigInsights的基本版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他一些开源工具。


本篇将以 IBM InfoSphere BigInsights 为主线,全面介绍 Hadoop 的主要组件。这些组件包括:① 分布式文件系统 HDFS; ② Hadoop 的编程模型 MapReduce: ③ 大数据查询语言JAQL;④大数据仓库 Hive 与 HBase;⑤ MapReduce 编码的更高级别的编程环境 Pig;⑥ Hadoop 与结构化数据存储间传送批量数据的工具 Sgoop;⑦ 旨在收集、汇总与将来自不同源的日志数据移动到中央位置的一种分布式系统 Flume; ⑧ 管理 Hadoop 工作流的工具 Oozie;⑨ 用于管理集群同步的工具 ZooKeeper; @ Hadoop 的机器学习组件 Mahout。


11.1 大数据与Hadoop

Hadoop的核心由HDFS和MapReduce组成。

Hadoop的基本框架:通用模块、HDFS(分布式存储)、YARN框架、MapReduce(分布式计算)。

11.2 Hadoop框架的主要组件

Hadoop框架的主要组件包括:HDFS、MapReduce、Jaql、Hive与Hue、Pig、Sqoop、Flume、Hadoop Streaming、Oozie、HBase、FlumNG、Whirr、Mahout、Fuse、Zookeeper。

11.3 用Hadoop分析大数据

关系数据库模型是主要的数据模型,主要有:表(Table)和元组(Tuple)。

表(Table)

在关系数据模型中,关系以表的格式存储。这个格式存储了实体间的关系。一个表具有行和列,其中行表示记录,列表示属性。

元组(Tuple)

表单的一行,包含关系的单个记录,称为元组。元组与属性的关系

11.4 Hadoop分布式文件系统——HDFS

cat

        用法:hadoop fs –cat URI[URI…]

        将原路径复制到标准输出

chgrp

        用法:hadoop fs –chgrp [-R] GROUP URI[URI…]

        更改文件的组关联

        使用-R,递归的=地通过目录结构进行更改

chmod

        用法:hadoop fs –chmod [-R]<MODE[,MODE]…|OCTALMODE>

        更改文件权限

        使用-R,递归地通过目录结构进行更改

chown

        用法:hadoop fs –chown [-R] [OWNER][:[GROUP]]URI[URI]

        使用-R,递归地通过目录结构进行更改 

        copyFromLocal

        用法:hadoop fs –copyFromLocal<localsrc>URI:

        copyToLocal

        用法:hadoop fs –copyToLocal [-ignoreCre] [-crc] URI<localdst>

count

        用法:hadoop fs –count[-q]<path>

        统计与指定文件模式匹配的路径下的目录、文件和字节数。

        输出栏为: DIR_COUNT,FILE_COUNT,COUNT_SIZE FILE_NAME

        用-q输出的栏为:

QUOAT,REMAINING_QUATA,SPACE_QUOTA,

REMAINING_SPACE_QUATA,DIR_COUNT,FILE_COUNT,

CONTENT_SIZE,FILE_NAME

cp

        用法:hadoop fs –cp URI[URI…]<dest>

        从源文件拷贝到目标文件

        该命令允许多个源文件,但目标必须是一个目录

du

用法:hadoop fs –du URI[URI…]

显示包含在目录中的文件的合计长度或只有一个文件的文件长度

dus

        用法:hadoop fs –dus <args>

        显示文件的总计长度

expunge

        用法:hadoop fs -expunge        

        清空垃圾

get

        用法:hadoop fs –get [-ignoreCre][-crc]<src><localdst>        

        将文件拷贝到本地文件系统

—CRC校验失败的文件可以用-ignoreCre选项复制。

—可以用-crc选项复制文件和CRC.

getmerge

        用法:hadoop fs -getmerge<src><localdst>[addn1]

        将源文件和目标文件作为输出,源文件中的连接文件连接到目标本地文件。

        可以设置一个附加选项来在每个文件的末尾添加换行符

Is

        用法:hadoop fs -Is<args>        

        对于文件,使用下面格式返回文件中的统计信息:

        —permissions number_of_replicas userid groupid filesize modification_date                                                                      modification_time filemane

        对于目录,它将返回其直接子目录列表,如在UNIX中。目录列表如下:

—permissions userid grougid modification_date modification_time dirname

Isr

        用法:hadoop fs –Isr<args>

        Is的递归版本。与Unix的Is –R相似。

mkdir

        用法:hadoop fs –mkdir<paths>

        将uri作为路径参数并创建目录。这种行为非常像Unix mkdir –p沿路径创建父目录

mv

        用法:hadoop fs –mv URI[URI…]<dest>

        将文件从源移动到目标

        这个命令允许多个源。在这种情况下,目标必须是一个目录。

        跨文件系统移动文件是不允许的。

put

        用法:hadoop fs –put<localsrc>…<dst>

        将单源或多源从本地文件系统拷贝到目标文件系统

        从stdin中读取输入并写入目标文件系统

        注意,它可以是同一个文件系统。

rm

        用法:hadoop fs –rm[-skip Trash]URI[URI…]

        删除指定参数的文件

        仅删除非空目录及文件

rmr

        用法:hadoop fs –rmr[-skipTrash]URI[URI…]

        删除的迭代版本

setrep

        用法:hadoop fs –setrep[-w][ -R]<path>

        改变文件的复制因子

stat

        用法:hadoop fs –stat URI[URI…]

        返回路径上的统计信息

tail

        用法:hadoop fs –tail[-f] URI

        将文件的最后1K字节显示到stdout中。-f选项可用于Unix中。

test

        用法:hadoop fs –test-[ezd] URI

        -e 查看文件是否存在,如果存在则返回0。

        -z 查看文件的长度是否为0,如果为真,则返回0。

        -d 查看路径是否是目录,如果是真,则返回0。

text

        用法:hadoop fs –text<src>

        将原文和输出文件转换为文本格式

touchz

        用法:hadoop fs –touchz URI[URI]

        创建长度为0的文件


大数据第12章 IBM InfoSphere BigInsights    

 一、实验内容

        请独立完成12.3的练习,提交练习结果。(提交练习过程中的实施步骤和相关界面截图)

二、实验目的

        IBM InfoSphereBigInsights是一个用于分析与可视化的大数据平台,是在Apache Hadoop开源的分布式计算平台上开发的。 

        InfoSphereBigInsights可以帮助企业或机构中的应用程序开发人员、数据科学家和管理人员快速构建和部署自定义分析系统,从数据中获取有用的价值。这些数据通常集成到现有的数据库、数据仓库和商业智能基础设施中。通过使用 InfoSphereBigInsights,用户可以从这些数据中提取新的内涵,从而增强对业务的了解。

三、实验设备

        PC

四、实验步骤

1.下载与安装IBM

步骤一:进入官网

https://www-01.ibm.com/marketing/iwm/iwm/web/preLogin.do?source=swg-i bmibqse&S_CMP=web_dwchina_rt_swd&S_PKG=ov13483〈=zh_CN

步骤2:注册IBM账号

注册后并登陆,同意协议,进入下一界面。


下载 3.0.0.2 版本镜像,下载完成后在进行解压缩。
打开 Vmware,点击打开虚拟机。进入到解压目录,打开虚拟机配置文件,配置结束后可开启此虚拟机。

2.环境配置

VMware映像的设置参数如下图所示。

3.入门练习

五、实验结果

六、实验小结

1. 通过练习,可以更好的管理大数据环境。
2. IBM所提供的加速,对开发和实现大数据分析应用程序提供了良好的解决方案。 


举报

相关推荐

0 条评论