大数据管理
1.什么是大数据?大数据有何特征
大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合
大数据的基本特征如下:
- 大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。
- 大数据异构的数据类型,不同的数据表示和语义解释多样
- 大数据具有快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。
- 大数据的价值是潜在的、巨大的,大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。
3.分析传统RDBMS在大数据时代的局限性
关系数据库在大数据时代丧失了互联网搜索这个机会,其主要原因是关系数据库管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的需求,关系数据库管理模型追求的是高度一致性和正确性,面向超大数据的分析需求。
4.分析传统RDBMS的哪些技术应该在非关系数据管理系统中继承和发展。
传统RDBMS的一致性和ACID特性在非关系数据管理系统中继承和发展。
5.什么是NoSQL,试述NoSQL系统在大数据库发展中的作用
- NoSQL是以互联网大数据应用为背景发展起来的分布式管理系统,它有两种解释:一种是Non-Relational,即非关系数据库;另一种是Not only SQL,即数据库管理技术不仅仅是SQL。NoSQL系统支持的数据模型通常分为:Key-Value模型;BigTable模型,文档。
- NoSQL系统为了提高存储能力和并发读写能力采用了及其简单的数据模型,支持简单的查询操作,而将复杂操作留给应用层实现。该系统对数据进行划分,对各个数据分区进行备份,以应对结点可能的失败,提高系统可用性;通过大量结点的并行处理获得高性能,采用的是横向扩展的方式。
6.什么是New SQL,查询相关的资料,分析NewSQL是如何融合NoSQL和RDBMS两者的优势的
- NewSQL系统是融合了NoSQL系统和传统数据库事务管理功能的新型数据库系统。
- NewSQL将SQL’和NoSQL的优势结合起来,充分利用计算机硬件的新技术、新结构,研究和开发了若干创新的实现技术。
7.描述MapReduce的计算过程。分析MapReduce技术作为大数据分析平台的优势和不足。
MapReduce技术主要应用于大规模廉价集群上的大数据并行处理,是以key/velue的分布式存储系统为基础,通过元数据集中存储、数据以chunk为单位分布存储和数据chunk冗余复制来保证其高可用性。
- 优势:MapReduce是一种并行编程模型。其处理模式以离线式批量处理为主。
- 不足:
基于MapReduce的应用软件较少,许多数据分析功能需要用户自行开发,从而导致使用成本增加。
程序与数据缺乏独立性
在同等硬件条件下,MapReduce的性能远低于并行数据库。
MapReduce处理连接的性能尤其不尽如人意。