- 背景去年年底,朋友公司中标了一个省级公安部门的数据分析类项目。项目组成约为数据7、其他功能3。为此,公司聘请了各方面的专业人才,投入项目的建设实施。至今年的4月底,项目产品初步成形,但数据相关的内容还存在问题,主要表现在:
- 接入困难,数据接入涉及多层网络、超2000个源端,部分有实时需求;
- 性能瓶颈,前期仅有部分数据的情况下已经比较慢
- 数据应用的提升,如何保障数据分析结果的可用性、易用性、延续性
- 解决方案
总体结构
- 多路工具组解决接入困难,了解客户方的数据安全要求,从本项目的实际需求和软硬件条件出发,开发多路接入工具组,并进行部署调试(2周),1月左右达到稳定,第3个月接入所有数据源,正式投入用户使用。
2、部署数合建模平台,适配合适的后端计算引擎,作为数据治理、标准化、业务建模的平台,支撑客户10亿级数据分析工作。
3、厘清数据分析目前存在的问题,结合项目需求,确定数据分层治理及分析方案
4、成立数据分析小组,进行1周左右的平台培训,开展分层治理、业务建模工作。数据分析是一个长期的工作,使用可视化建模工作有效的进行知识的继承和积累。
三、成果
1、数据集中(左侧),展示三类数据集中进展
2、数据接入(中间上中部),展示接入的整体数据量,6个系统,接入数据全量为4亿多。当日接入数据量在1000万上下。
3、数据组织(右侧),主要分层包括标准库、专题库、和知识库。最终112个表,4.55亿数据。从原始库到最终的应用展示,数据膨胀系数约为2.5倍。
4、任务运行情况(中间下部),展示每天运行的任务情况,包括接入任务2240个和模型任务274个,展示任务异常情况。
四、产品优化
在整个实施过程中,大家提出很多宝贵意见,优化了产品功能。主要包括:
- 支持多个写入库逻辑
- 输出表算子支持表名修改
- 并集算子支持一键关联所有字段
- 分组算子支持不设分组列
- 同一个模型共享标签显示多次
- 同一个模型修改后,我的任务名称不更新
- ……
五、愿景
数合建模平台最初有两个方向,一是最大程度提高易用性,让更多的业务人员可以专注于业务建模;一是通过工具平台降低对实施人员的技术要求,更多的去理解响应客户的业务需求,为企业降本增效。此次是第二个方向的有效尝试。