数睿通2.0数据血缘、标准、质量功能更新发布

数睿通2.0数据血缘、标准、质量功能更新发布
最新回答
旧希卿

2024-04-15 02:21:40

数睿通2.0数据血缘、标准、质量功能更新发布

数睿通2.0本次更新主要包含数据治理模块的血缘、标准、质量三大功能,这些功能能够帮助用户更加直观地查看和管理平台的数据信息,是数据治理的重要组成部分。

一、数据血缘

数据血缘功能可以帮助用户追溯数据流向,明确数据从哪来,到哪去。在遇到问题时,可以直指源头,快速处理解决。然而,数据血缘的构建并非易事,尤其是通过SQL构建血缘会遇到复杂SQL解析、字段和表的实际归属等问题。因此,本次更新只针对数据接入部分做了自动血缘构建。对于数据生产部分的SQL任务,后续计划通过用户介入的方式协助构建血缘,仅通过解析SQL来自动构建目前看来是不现实的。

由于前端技术限制,目前暂时通过接入Neo4j的官方客户端界面展示血缘关系图。最终展示效果计划做成类似Atlas那样,用户可以通过点击血缘的数据节点去追溯查看节点以及关联节点的信息。当前实现的效果图如下所示:

二、数据标准

数睿通2.0平台的数据标准功能主要用来定义标准字段和标准码表,帮助用户维护和管理数据标准信息。标准字段可以通过关联具体的元数据字段,获取标准检测报告,从而方便用户查看数据情况,及时对不符合标准的数据做出调整,保证数据的标准化运营。

用户可以自定义数据标准目录,新增标准字段和标准码表。创建完标准字段和标准码表之后,在元数据模块关联具体字段可以查看标准检测结果。具体功能展示如下:

  • 用户可以自定义数据标准目录,新增标准字段和标准码表:

  • 在元数据模块关联具体字段可以查看标准检测结果:

三、数据质量

数据质量功能主要用于检测数据的质量情况。用户可以根据质量规则进行规则配置,生成质量任务,定时检测,并生成质量报告。这样,用户就可以对数据质量的好坏有一个清晰直观的认知,并针对质量报告对平台的数据做出适时的清洗和调整,保证数据的整体可用性。

质量规则通常是内置的,并且已经定义好。同时,如果有特定的业务需求,用户可以自行添加相关的检测处理逻辑进行扩展。该平台的内置规则包含以下10种:

  • 唯一性校验(检验字段是否唯一)
  • 手机号格式检验
  • 身份证号格式检验
  • 邮件格式检验
  • 是否为日期格式
  • 是否为数字格式
  • 长度检验(检验字段是否符合设定长度)
  • 非空检验(检测是否存在空值)
  • 关联一致性检验(检测与关联的字段取值是否一致)
  • 及时性(检测更新时长是否超过设定时间)

本次更新完成了数据质量模块的质量规则展示以及规则配置两个功能,质量任务尚处于开发阶段。当前整体功能展示如下:

结语

以上就是数睿通2.0本次更新的主要内容。数据血缘部分单独抽了一个模块出来,主要用做与Neo4j数据库的交互,对于不了解Neo4j图数据库的用户来说,具有较高的学习参考价值。数据标准和数据质量功能则主要偏向于中台本身的业务,其中如何关联元数据查询、生成动态SQL获取标准报告等,理清了相关代码逻辑,可以帮助用户更好地理解中台相关的概念,并结合自身业务发挥平台应有的价值。