数据仓库的地位不保了?!
物联网、社交网络和消费者产生的大量数据,传统数据仓库容量有限,处理不了这么多数据。
聊天信息、图片、语音、视频等新数据的类型也要求能够得到迅速处理,其中许多是非结构化数据和半结构化数据,传统数据仓库以关系型数据库为基础,缺乏处理新数据类型的能力。
用户希望数据仓库能够快速度响应他们的需求,帮助他们从企业积累的庞大的历史数据和快速增长的新数据中获得有业务价值的新点子,还要具备能够预测未来的功能。
很多企业的数据仓库系统都在面临这些挑战,并且因为不断创新的业务需求而变得愈加严峻。
01
大数据,大挑战
在过去的几十年里,企业级的数据分析和应用得益于企业数据仓库技术的发展。建设企业数据仓库成为企业利用信息和数据资产,并将企业信息化建设积累的大量数据转换为经济价值最直接最有效的手段之一。企业数据仓库在监控企业日常运营流程、提升企业管理绩效、发掘新的商业机会、减少客户流失、乃至进行市场预测趋势等方面都展现了其不俗的实力和价值。
然而,大数据来了!
业务分析的需求是相对稳定的。人们不仅想知道以前发生了什么,还想知道现在发生了什么,为什么发生,怎样预测是否还会再次发生。但是,大数据时代的到来让游戏格局发生显著变化,这个新的游戏参与者正在改变规则。传统的数据仓库如何利用大数据体系结构?大数据技术又给数据仓库建设提供了哪些可用的新工具?
有了大数据技术,人们会希望获得实时的业务洞见能力,而不仅仅是传统的周期性的业务报告。人们还会希望可以分析那些存储在数据湖、迅速增长的数据。另外,客户有很多业务系统是运行在云端的。现代的分析应用也需要支持在云上运行,使用来源于云的数据。云端的数据和本地数据仓库的数据、数据湖中的数据也需要能够打通,不能各分析各的,形成新的数据孤岛。它们的整合程度要求更高,对本地系统数据的依赖性更小。这些需求看起来与传统数据仓库格格不入,需要数据仓库解决方案提供的灵活的全新架构。
大数据带来的变化远不止这些……
02
数据仓库的转型之路
今天,业务用户要求从各类业务系统,社交媒体,和云端数据源获得集成的实时分析。而与此同时,获取数据的便利性需求也不断提高,用户希望能自动服务和自主访问量身定制的分析数据。但日益增长的数据量和多层次的数据处理降低了及时分析的时效性,也使更多公司重新审视他们的企业数据仓库体系结构。
我们用图1‑1简单地展示大数据技术的发展对传统企业数据仓库技术带来的影响。
图1‑1大数据影响下的数据仓库转型
大数据技术带来了新系统的建设和开发,带来了新的数据应用方式,也带来了传统企业数据仓库的升级和改造。
许多公司已在其大数据战略中使用各种技术支持新的下一代分析系统。现代数据仓库架构,不仅利用传统的数据仓库体系结构,也充分吸收利用现代的大数据技术。Forrester将现代数据仓库称为"大数据仓库(BDW)",并将其定义为:
一套专门、相互关联的数据存储库和平台,用来支持各种各样的分析应用,运行在本地部署、云部署,或者混合部署的环境中的。大数据仓库利用传统和新技术,如Hadoop,基于列式存储和行式存储的数据仓库,ETL和流数据处理,以及弹性内存计算和存储框架。
在数据存储方面,现代数据仓库体系结构的一个关键功能特点是利用不同的数据存储技术,如传统的关系型数据仓库、列式数据仓库和Hadoop等。不同于传统的数据仓库,现代数据仓库降低了系统的复杂性,通过自助服务平台对外提供服务,支持包括非结构化数据内的所有的数据类型,可以更快适应不断变化的业务要求。
现代数据仓库集中化管理的分布式的数据存储空间、内存计算资源、元数据、和数据的访问处理能力。现代数据仓库可以使用新的技术包括,但不限于:
● 支持不同的数据集和分布式计算的Hadoop。
● 便于实现快速客户分析能力的内存计算。
● 支持接收和处理新的数据通道的流引擎。
从实施的层面看,不少企业正开始兴建现代数据仓库平台,将传统数据仓库与Apache Spark,Hadoop,Storm和内存计算技术集成在一起。有些企业借助Hadoop技术从不同的源系统提取数据,将数据加载到Hadoop,利用 ApacheHadoop生态系统工具执行聚合和转换,最后将结果加载到数据仓库平台进行各种分析与应用。
03
超越,从这里开始
很多企业都有自己的企业数据仓库平台,如何在保护现有的数据仓库投资的情况下,逐步建设下一代现代数据仓库是企业信息技术部门面临的一个重要课题。实现这一目标需要重新构建现有的企业数据仓库平台,并投资于新技术,才能实现提升客户分析服务的新愿景。扩展当前的企业数据仓库,让新系统能做到适时分析、提供自助服务、支持更多智能应用、提升数据语境化的能力。扩展现有企业数据仓库平台,逐步转向现代数据仓库战略,是有一些新的投资方向和可行的做法的。
一、支持适时分析的内存计算技术。
二、使用有助于更快实现方案价值的供应商解决方案。
三、支持低成本的存储和处理大数据的Hadoop。
四、支持按需定制和可扩展现代数据仓库的混合平台。
-End-
本文作者:陈永杰
著有:《SAP大数据完全解决方案》