0
点赞
收藏
分享

微信扫一扫

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks

学习笔记,仅供参考,有错必纠


文章目录

  • ​​一站式大数据平台DataWorks​​
  • ​​大数据开发平台-DataWorks​​
  • ​​DataWorks 的主要功能及作用​​
  • ​​DataWorks基本操作​​
  • ​​数据平台开发流程​​
  • ​​数据处理​​
  • ​​本地数据导入​​
  • ​​数据节点开发​​
  • ​​任务调度配置(略)​​
  • ​​DataWorks中的参数设置​​
  • ​​数据管理​​
  • ​​运维操作​​
  • ​​智能监控​​


一站式大数据平台DataWorks

大数据开发平台-DataWorks

DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。

DataWorks 的主要功能及作用

DataWorks 的主要功能有:

  • 全面托管调度
  • 数据转化与同步
  • 可视化开发
  • 监控警告

使用DataWorks,可以对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。

DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。

DataWorks基本操作

DataWorks 的使用从主账号(组织管理员)创建项目和子账号开始并赋权开始。不同角色的账号操作模块不同。

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_运维

数据平台开发流程

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_大数据_02

  • 数据产生:业务系统产生的结构化的数据,通常存储的数据库中,如MySQL、Oracle、RDS等类型。
  • 数据收集与存储:利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务,可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。
  • 数据分析与处理:对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
  • 数据提取:分析与处理后的结果数据,需同步导出至其他(业务)系统,供业务人员使用其分析的价值。
  • 数据展现和分享:最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。

数据处理

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_数据管理_03

本地数据导入

DataWorks支持以下两种操作:

  • 将保存在本地的文本文件中的数据上传到工作空间的表中。
  • 通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。

本地文本文件上传的限制如下:

  • 文件类型:仅支持 .txt .csv 格式
  • 文件大小:不超过 10 M
  • 操作对象:导入分区表时,分区不允许为中文

数据节点开发

DataWorks中,ODPS SQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异,根本区别在于个不同类型节点的数据处理实现。

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks_数据_04

任务调度配置(略)





DataWorks中的参数设置

参数类型

设置方式

适用类型

参数编辑框示例

系统参数 bdp.system.bizdate 和bdp.system.cyctime

在调度系统中运行时,无须在编辑框设置,可直接在代码中引用 ${bdp.system.bizdate}和${bdp.system.cyctime}, 系统将自动替换这两个参数的取值

全部节点类型


自定义参数

在代码中引用${key1},${key2}, 然后在“参数”编辑框以如下方式设置 "key1=value1 key2=value2 "

除Shell外的其他节点类型

常量参数:param1=“abc” param2=1234; 变量参数:param1=$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算

自定义参数

在代码中引用$1 $2 $3, 然后在“参数”编辑框以如下方式设置: “value1 value2 value3”

Shell类型

常量参数:“abc” 1234; 变量参数:$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算

数据管理

数据管理为用户提供组织内全局数据视图、用户可以对组织内数据进行分权管理元数据信息详情数据生命周期管理数据表/资源/函数权限管理审批等操作。

具体功能以及管理模块权限如下图所示:

功能模块

权限点

组织管理员

项目管理员

开发

权限管理

权限审批与收回




管理配置

类目导航配置




数据管理

自己创建的表删除




数据管理

自己创建的表类目设置




数据管理

自己收藏的表查看




数据管理

新建表




数据管理

自己创建的表取消隐藏




数据管理

自己创建的表结构变更




数据管理

自己创建的表查看




数据管理

自己申请的权限内容查看




数据管理

自己创建的表隐藏




数据管理

自己创建的表生命周期设置




数据管理

非自己创建的表数据权限申请




运维操作

运维中心仅对开发、运维、项目管理员角色的人员开放:

**开发:**进行单个工作流/节点测试、补数据、暂停、重跑任务,查看任务运行日志等操作,还可配置监控报警 ;

运维:经常处理任务异常,运维任务包括:单个工作流/节点测试、补数据、暂停、重跑任务等操作。同时,还可进行批量修改工作流/节点属性、批量杀任务及批量重跑、配置监控报警等干预性操作。

项目管理员:在运维中心模块中拥有与运维人员同等的操作权限。

智能监控

智能监控模块是DataWorks(数据工场)任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间,报警方式以及报警对象。

举报

相关推荐

0 条评论