学习笔记,仅供参考,有错必纠
文章目录
- 一站式大数据平台DataWorks
- 大数据开发平台-DataWorks
- DataWorks 的主要功能及作用
- DataWorks基本操作
- 数据平台开发流程
- 数据处理
- 本地数据导入
- 数据节点开发
- 任务调度配置(略)
- DataWorks中的参数设置
- 数据管理
- 运维操作
- 智能监控
一站式大数据平台DataWorks
大数据开发平台-DataWorks
DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
DataWorks 的主要功能及作用
DataWorks 的主要功能有:
- 全面托管调度
- 数据转化与同步
- 可视化开发
- 监控警告
使用DataWorks,可以对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。
DataWorks基本操作
DataWorks 的使用从主账号(组织管理员)创建项目和子账号开始并赋权开始。不同角色的账号操作模块不同。
数据平台开发流程
- 数据产生:业务系统产生的结构化的数据,通常存储的数据库中,如MySQL、Oracle、RDS等类型。
- 数据收集与存储:利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务,可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。
- 数据分析与处理:对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
- 数据提取:分析与处理后的结果数据,需同步导出至其他(业务)系统,供业务人员使用其分析的价值。
- 数据展现和分享:最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。
数据处理
本地数据导入
DataWorks支持以下两种操作:
- 将保存在本地的文本文件中的数据上传到工作空间的表中。
- 通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。
本地文本文件上传的限制如下:
- 文件类型:仅支持 .txt 和 .csv 格式
- 文件大小:不超过 10 M
- 操作对象:导入分区表时,分区不允许为中文
数据节点开发
DataWorks中,ODPS SQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异,根本区别在于个不同类型节点的数据处理实现。
任务调度配置(略)
DataWorks中的参数设置
参数类型 | 设置方式 | 适用类型 | 参数编辑框示例 |
系统参数 bdp.system.bizdate 和bdp.system.cyctime | 在调度系统中运行时,无须在编辑框设置,可直接在代码中引用 ${bdp.system.bizdate}和${bdp.system.cyctime}, 系统将自动替换这两个参数的取值 | 全部节点类型 | 无 |
自定义参数 | 在代码中引用${key1},${key2}, 然后在“参数”编辑框以如下方式设置 "key1=value1 key2=value2 " | 除Shell外的其他节点类型 | 常量参数:param1=“abc” param2=1234; 变量参数:param1=$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算 |
自定义参数 | 在代码中引用$1 $2 $3, 然后在“参数”编辑框以如下方式设置: “value1 value2 value3” | Shell类型 | 常量参数:“abc” 1234; 变量参数:$[yyyymmdd], 结果将基于bdp.system.cyctime的取值计算 |
数据管理
数据管理为用户提供组织内全局数据视图、用户可以对组织内数据进行分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。
具体功能以及管理模块权限如下图所示:
功能模块 | 权限点 | 组织管理员 | 项目管理员 | 开发 |
权限管理 | 权限审批与收回 | — | √ | — |
管理配置 | 类目导航配置 | √ | √ | √ |
数据管理 | 自己创建的表删除 | √ | √ | √ |
数据管理 | 自己创建的表类目设置 | √ | √ | √ |
数据管理 | 自己收藏的表查看 | √ | √ | √ |
数据管理 | 新建表 | √ | √ | √ |
数据管理 | 自己创建的表取消隐藏 | √ | √ | √ |
数据管理 | 自己创建的表结构变更 | √ | √ | √ |
数据管理 | 自己创建的表查看 | √ | √ | √ |
数据管理 | 自己申请的权限内容查看 | √ | √ | √ |
数据管理 | 自己创建的表隐藏 | √ | √ | √ |
数据管理 | 自己创建的表生命周期设置 | √ | √ | √ |
数据管理 | 非自己创建的表数据权限申请 | √ | √ | √ |
运维操作
运维中心仅对开发、运维、项目管理员角色的人员开放:
**开发:**进行单个工作流/节点测试、补数据、暂停、重跑任务,查看任务运行日志等操作,还可配置监控报警 ;
运维:经常处理任务异常,运维任务包括:单个工作流/节点测试、补数据、暂停、重跑任务等操作。同时,还可进行批量修改工作流/节点属性、批量杀任务及批量重跑、配置监控报警等干预性操作。
项目管理员:在运维中心模块中拥有与运维人员同等的操作权限。
智能监控
智能监控模块是DataWorks(数据工场)任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间,报警方式以及报警对象。