数据治理那些事(9)---数据质量6
上节主要讲了HADOOP平台的数据质量管理平台的规则配置,本节继续讲数据质量检管理平台的工作流程.
数据质量评估信息
数据质量评估信息是数据质量管理平台不定期数据质量评估活动中所涉及的明细业务数据信息、编码信息、评估元数据信息及评估指标选择信息等。参见错误!未找到引用源。节。
数据质量问题处理信息
数据质量问题处理信息是数据质量告警被确认后转入问题处理流程的相关处理信息及数据质量评估发现的问题信息。
数据质量存储方式
数据质量存储库使用关系数据库或文件存储数据质量规则、数据质量信息和数据质量知识;对于问题总结过程和数据质量评估过程中输出的文档可以以Text、PDF、Excel或Word等文件格式存储。
数据质量功能层
按照数据质量管理流程,即质量定义、度量、分析和改进,质量管理子系统主要功能包括:开数据质量满意度反馈、Hadoop结构化数据稽核、新数据源质量稽核、规则配置
管理、数据质量监控、数据质量问题处理、数据质量评估、数据质量报告和数据质量对外服务等。
基础功能
规则配置管理
规则管理功能结构如错误!未找到引用源。所示:
规则定义
数据质量规则是以被操作对象为中心,展开的一系列质量管理活动的判断准则。一个规则通常包括规则ID、规则名称、规则算法、规则阈值和被监控对象等要素。数据质量规则可分为采集规则、监控规则、告警规则和审计规则四类。
采集规则是获取被监控对象的具体数值的方法,包括采集代理规则和采集程序规则;
监控规则是对采集到的监控对象数据进行质量校验的校验规则;
告警规则是监控规则执行后,出现违反规则允许范围的异常时,发送告警信息的方式方法,包括告警方式规则和告警订阅规则;
审计规则是进行两级联动对象数据质量审计的算法依据,包括及时性审计规则和准确性审计规则。
下面根据规范实施重点,详述监控规则的规则结构,并简述采集、告警和审计等其他规则的内容。
规则设置
数据质量管理平台需要对大量的监控点进行质量监控。规则动态设置,即是在规则统一结构和存储的基础上,根据监控对象的类型、属性及历史数据,动态提供与其相应的监控规则、初始阈值及数据维度信息等,实现规则的类型及阈值等与被监控对象快速匹配,支持对新增监控点的动态配置和快速部署。主要包括以下几点:
规则类型支持根据监控对象类型做匹配,如对接口文件提供及时性检查规则、对关键指标提供波动检查规则。
规则阈值支持参照历史数据波动情况或同类型监控对象的规则阈值做匹配。
支持根据相同监控对象的不同维度(如客户到达数的城市、品牌等维度)进行规则配置。
规则运行配置:规则配置完成后,支持立即运行规则或重跑。
支持一个指标多个规则配置,能够一个指标监控使用多个监控规则。如快报应用,同一指标在10点钟与同期对比波动范围为±30%,在20点钟与同期对比波动范围为±20%。
规则维护
规则维护即是规则建立后对规则各种属性的日常管理,包括规则的界面维护即后台维护两部分。
规则的界面维护即是对规则相关的规则类型、规则算法、规则阈值及数据维度等进行管理,包括如下几部分:
规则修改:修改规则的相关属性信息。
规则删除:删除一条规则。
规则查询:提供按照规则的ID、名称、属性等精确匹配及模糊查询。
后台维护
规则的后台维护包括对当前规则、规则变更和历史规则信的存储维护等,分别说明如下:
当前规则信息:记录所有当前可有效使用的最新规则信息,由规则的基本结构信息,包括规则定义、规则类型、规则对象以及规则阈值等组成;
规则变更信息:记录规则发生修改时的变更信息,包括变更编码(每次变更的唯一识
别码)、规则编码、变更类型(阈值、对象维度等)、变更值(变更后的值)以及变更人和变更时间等;
历史规则信息:记录一次规则变更发生前的规则信息。
规则调度
数据质量规则调度是面向规则对象的检查任务,按照时间触发和事件请求方式触发规则调用,具体说明如下。
时间触发方式
定时触发
即根据设定的时间:年、月、日、小时、分钟及秒等进行规则调度;
循环触发
即指定时间段进行规则的循环调度;
间隔触发
即指定两个规则调度的间隔时间;
事件请求方式
前置依赖调度
即某规则是否执行调度需要判断它的前置条件是否满足。如错误!未找到引用源。所示,根据元数据血统图建立了指标1和指标2的相关监控点。前置依赖即链路上每个监控点是否进行规则调度,都要依赖于前一个监控点执行的结果,如果前一个监控点出现告警,则该监控点即无需调度。如接口1的及时性检查出现告警(即接口1未按时到达),则ETL1和ETL1之后的节点则无需调度。实现该调度方式可以减少大量的关联告警产生。如错误!未找到引用源。所示。
后置触发调度
后置触发调度即某规则执行之后,根据其执行的结果,来决定另一个节点是否执行。该调度方式可支持在出现质量问题时,进行进一步的质量探查分析。
本节讲的数据质量管理平台的数据规则的功能和配置,通过数据检核规则的配置和调度进行数据检核的任务,调度的方式包括时间触发和事件触发等方式 ,通过数据质量检核规则配合检核点来进行事前检核,事中检核和事后检核,通过检核的结果生成相关统计报告,通知相关的人员,并分析数据质量的原因,及时修正,下节讲数据质量监控内容.
因篇幅问题不能全部显示,请点此查看更多更全内容