引入内存计算技术是数据平台变革的起点,也是技术创新的基石。SAP新一轮的创新浪潮也是在SAP HANA平台上掀起的。在SAP HANA上建设新的数据仓库系统;或者将企业的已有数据仓库迁移到SAP HANA之上,保护原有投资,重用原来的模型。这在实施方法上都是可行的选项。
但是,新技术带来新变化。简单的系统迁移不能解决全部的问题,而是从系统的设计层面,变革就开始了。
01
条条大路通罗马
在数据库平台上使用SQL或者数据库开发工具去开发一个数据仓库系统,对于很多做过数据仓库系统建设的人都不陌生。技术大拿们可能认为找一些上手的工具,在 SAP HANA 平台上直接开发数据仓库或者进行现有数据仓库的改造是理所当然的选项。我们不妨将其称为基于SQL的建设方法。使用这种开发方式,可以灵活地自定义各种数据模型;各种工具及SAP HANA内置的服务共同提供了完整的数据仓库功能;用户自行管控系统的复杂度和系统规模。
数据仓库建设有成熟的方法论和丰富的实践。早在1997年,SAP就基于数据仓库的建设实践,率先推出了一个体系化建设数据仓库系统的应用软件,称为业务信息仓库(SAP Business Warehouse,BW),它也是我们将要重点介绍的BW/4HANA解决方案的前身。
SAP BW和BW/4HANA一直在不断优化以满足 SAP 客户的需求。在SAP HANA正式发布之前,SAP BW就推出了使用内存计算技术的SAP BW加速器,它也是SAP HANA的前身。随着SAP HANA的发布,SAP BW迁移到HANA平台并进行了全面的优化,在2016年底推出了BW/4HANA方案。
SAP BW/4HANA本身提供高度集成的完整解决方案,可满足建设和改造数据仓库需求。随着SAP BW/4HANA功能的不断深化,它充分利用了HANA的特性,并可以将BW/4HANA中创建的模型自动生成SAP HANA计算视图供外部使用,与基于SQL的方法相互补充。
02
数据仓库逻辑分区架构
像BW及BW/4HANA这样专业的数据仓库应用软件的产生,是长期以来企业数据仓库建设与管理工作不断总结最佳实践、不断沉淀建设思想与理念的结果。其中,按企业数据仓库处理数据的不同特点,将数据仓库划分不同逻辑区可以显著提升数据仓库系统的规范性和可扩展性,成为企业数据仓库建设的标准。
新技术的引入不会改变数据仓库多分区架构带来的架构规范化、方便管理和扩展的优势,也不影响数据仓库各个分区的功能定位。但是,对于各个数据仓库分区实现各自功能的具体技术手段带来的全新的思路和方法。
使用内存计算数据库作为数据仓库的存储平台,使用传统的“空间换时间”的数据仓库建设思想过时了。它带来的变化是多方面的。简而言之,就是减少数据存储(空间),加速数据处理(时间)。我们用下图来说明变化后的数据仓库逻辑分区架构,又称为增强的分层可扩展架构(Layered, Scalable Architecture, LSA++)。
数据仓库逻辑分区架构的变化
03
细数不同逻辑分区的变化
我们不妨细数图中不同的数据平台的逻辑分区,看看新技术的引入给这些逻辑分区的技术实现带来哪些变化?
(一)数据采集层更轻、更快
开放运营数据存储层,也称为数据采集层,其基本作用是存储和管理从外部系统进行数据仓库系统的数据。
增强后的LSA架构里的开放运营数据存储层从以下三个方面简化了数据仓库建模:
1、减少数据存储,增强数据采集功能
2、方便、快速地将数据纳入数据仓库统一管理
3、具有直接运行查询和报告的选项
(二)EDW传播层手段更多
进入企业数据仓库层的数据在语义上是一致的,可以被用来满足多种业务分析和应用的需求。企业数据仓库层实现了著名的数据仓库原理:“一次提取,多次部署”。因此,企业数据仓库层又称为“数据传播层(Data Propagation Layer)”。
1、BW/4HANA系统以信息对象的方式提供了核心数据仓库实体的模型,作为企业数据仓库层的数据模型的模板。
2、在BW/4HANA中,这一数据层也会对外提供查询和分析服务,减少后续的模型,简化数据仓库架构。
3、基于字段的建模方式为EDW层整合不同来源的数据提供了更加灵活的手段,全新的语义组提供了支持复杂建模的更多方法。
(三)企业存储层融入数据湖
企业存储层又被称为企业的大脑,它包含了所有加载数据的完整历史,可以用作重新构建数据仓库的数据源,而不必再从源系统进行数据抽取。
企业存储层存储了大量数据,而且有大量的数据是不常使用的。根据企业存储层中数据使用的不同频率,可以对数据采用不同的存储策略,将数据区别为“热数据”“温数据”和“冷数据”。对于冷数据,BW/4HANA支持将数据存储在外部存储介质中,包括SAP IQ、Hadoop,并提供统一的管理方法。
(四)数据集市层大量虚拟化
数据集市层包含了架构数据集市层、业务转换层和虚假数据集市层。
虚拟数据集市层,顾名思义,是用来创建不具有物理数据存储的数据集市的解决方案。增强的LSA架构中的虚拟数据集市层可以将任何具有物理数据存储的信息提供者与虚拟的信息提供者通过连接或者联合的方式结合起来。
(五)敏捷数据集市锦上添花
敏捷数据集市层是使用即席加载数据和临时数据创建业务原型的地方,敏捷商务智能可以直接在生产环境创建并为业务所拥有,用于各种专用数据,兼顾了集中的敏捷数据集市层或部门BW/4HANA工作空间层的不同需求,系统不必进行数据一致性检查。
-End-
本文作者:陈永杰
著有《SAP大数据完全解决方案》等多本有影响力的SAP图书