阿里大数据分析与应用(part4)--一站式大数据平台DataWorks-CFANZ编程社区

学习笔记，仅供参考，有错必纠

一站式大数据平台DataWorks

DataWorks（数据工场，原大数据开发套件）是阿里云数加重要的PaaS平台产品，它提供全面托管的工作流服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务，包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算（基于Flink）、机器学习PAI、图计算服务Graph Compute和交互式分析服务等，并且支持用户自定义接入计算和存储服务。

DataWorks 的主要功能有：

使用DataWorks，可以对数据进行传输、转换和集成等操作，从不同的数据存储引入数据，并进行转化和开发，最后将处理好的数据同步至其它数据系统。

DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。

DataWorks 的使用从主账号（组织管理员）创建项目和子账号开始并赋权开始。不同角色的账号操作模块不同。

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_运维

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_大数据_02

数据产生：业务系统产生的结构化的数据，通常存储的数据库中，如MySQL、Oracle、RDS等类型。
数据收集与存储：利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据，首先需要将不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务，可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。
数据分析与处理：对MaxCompute上的数据进行加工（MaxCompute SQL、MaxCompute MR）、分析与挖掘（数据分析、数据挖掘）等处理，从而发现其价值。
数据提取：分析与处理后的结果数据，需同步导出至其他（业务）系统，供业务人员使用其分析的价值。
数据展现和分享：最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_数据管理_03

DataWorks支持以下两种操作：

本地文本文件上传的限制如下：

DataWorks中，ODPS SQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异，根本区别在于个不同类型节点的数据处理实现。

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_数据_04

参数类型	设置方式	适用类型	参数编辑框示例
系统参数 bdp.system.bizdate 和bdp.system.cyctime	在调度系统中运行时，无须在编辑框设置，可直接在代码中引用 ${bdp.system.bizdate}和${bdp.system.cyctime}，系统将自动替换这两个参数的取值	全部节点类型	无
自定义参数	在代码中引用${key1},${key2}，然后在“参数”编辑框以如下方式设置 "key1=value1 key2=value2 "	除Shell外的其他节点类型	常量参数：param1=“abc” param2=1234；变量参数：param1=$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算
自定义参数	在代码中引用$1 $2 $3，然后在“参数”编辑框以如下方式设置： “value1 value2 value3”	Shell类型	常量参数：“abc” 1234；变量参数：$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算

数据管理为用户提供组织内全局数据视图、用户可以对组织内数据进行分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。

具体功能以及管理模块权限如下图所示：