0
点赞
收藏
分享

微信扫一扫

dataCompare核心功能之数据探针

1数据探针产生的背景

在数据开发和接入的过程中,数据开发人员接到一个需求或者一条新的业务线可能需要搭建数仓,做数据处理,然后提供一些指标数据给到需求方,如果是你这边会怎么开始呢?

直接开干?抽表,清洗,分层,建模?

然后发现做完之后,怎么数据各种不对,取不到想要的数据,比如说:业务上说明明一个字段为空比例非常少(1%以内),但是加工出来的数据问题非常多?比如说:空值占比接近30%,然后报表显示的结果就各种问题,然后又往上排查发现,原来是别人提供的数据,或者采集的数据有问题

所以一上来开干,这就是瞎搞。啥也不知道不了解的情况下,对数据源一无所知的情况下,是谁给你勇气直接开干的?干完之后返工成本更大

dataCompare核心功能之数据探针_处理方法

2正常的数据开发流程

接到新的数据需求或者任务的时候,最开始应该需要做一下数据调研,即数据探查(也就是标题上提的数据探针),发现数据潜在的问题。

dataCompare核心功能之数据探针_处理方法_02

那数据探针到底要探测哪些内容呢?

dataCompare核心功能之数据探针_数据_03

3现状

大多数数据开发人员的处理方法:写大量的sql

比如:

总行数据:select count(*) from table_name;

枚举值:select table_column,count(*) as cnt from table_name group by table_column 等等

4数据探针

4.1低代码、少量配置即可实现探查任务

4.2将数据探测标准化,避免不同的数据开发人员采用不同的探测标准,做标准统一

4.3快速完成数据探测:30秒完成探测任务配置,2分钟出探测结果

5功能演示

5.1探测任务配置

dataCompare核心功能之数据探针_处理方法_04

5.2探测结果详情

dataCompare核心功能之数据探针_数据_05

dataCompare核心功能之数据探针_处理方法_06

dataCompare核心功能之数据探针_开发人员_07

举报

相关推荐

0 条评论