什么是数据质量框架(Data Quality Framework)以及如何实施?

数据质量管理是许多企业迫切关心的问题。这是一个尴尬的阶段,企业拥有所需的数据,但仍然无法产生依赖于数据的效果。实施清理和转换数据的数据质量框架与收集数据同样重要。从长远来看,这些纠正措施可以帮助提高组织的运营效率和工作生产力。

 

 

30~50%的企业经历了数据预期与现实之间的差距。他们拥有所需的数据,但由于存在完全不可接受的缺陷,他们无法根据需要使用它。这些缺陷也称为数据质量问题 - 必须获取并修复,以便数据可以用于成功的业务运营和情报。 

 

并非每个企业都面临同样的数据质量挑战。一些人抱怨在数据沿袭和内容方面遇到了差距,而另一些人则在其完整性和一致性方面遇到了麻烦。因此,并非所有数据质量挑战都可以使用相同的方法和实践来解决。这就是使用数据质量框架的地方—— 一个专为特定业务案例设计的框架。 

 

 

  • 什么是数据质量框架? 

 

数据质量框架是一个系统过程,它不断地分析数据中的错误并实施各种数据质量操作以防止错误进入系统。 

数据质量框架(Data Quality Framework,也称为数据质量生命周期 Data Quality Lifecycle)通常设计为一个循环,在该循环中持续监控数据以捕获和解决数据质量问题。此过程涉及许多数据质量过程,通常按优先顺序实施,以在将数据传输到目标源之前最大限度地减少错误。 

 

 

 
  • 数据质量框架各阶段 

 

数据质量框架以循环方式设计,包含四个阶段: 

  1. 评估:评估数据质量对组织意味着什么以及如何衡量它。 
  1. 设计:通过选择一组数据质量流程和系统架构来设计合适的数据质量管道。 
  1. 执行:对现有数据和传入数据执行设计的管道。 
  2. 监控:监控和分析数据中的数据质量问题,并测量数据质量指标,以确保它们保持在定义的阈值之上。 
     
 
  • 如何实施数据质量框架? 

 

由于数据质量对每个组织都有不同的含义,因此您无法在不同的情况下使用相同的数据质量框架。在这里,我们将学习一个全面而通用的框架,足以供各种企业自行采用。我们来看看数据质量框架的四个阶段包括哪些内容: 

 

 

  1. 评估 

该框架的第一部分涉及定义数据质量的含义(在来源、元数据和数据质量指标方面),并评估现有数据的性能。 
评估阶段进行的一些活动包括: 
  • 选择传入数据源,例如 CRM、营销工具、第三方供应商等。 
  • 选择完成信息所需的属性,例如客户姓名、电话号码、地址等。 
  • 定义所选属性的数据类型、大小、模式和格式,例如电话号码应包含 11 位数字,并应遵循以下模式:(XXX)-XXX-XXXX。 
  • 选择定义可接受性标准(例如客户偏好)的数据质量指标可以达到约 90% 的准确度和 80% 的完整性,但客户名称必须 100% 准确和完整。 
  • 运行数据配置文件检查以评估现有数据针对定义的数据质量的执行情况。 

     

  1. 设计 
在设计阶段,您需要构建一个数据管道,以确保所有即将到来的数据都转换为评估阶段定义的状态。  
此阶段的常见活动包括: 
  • 选择清理、匹配和保护数据质量所需的数据质量进程。(以下是此步骤中通常包含的一些数据质量进程)
  • 需要进行数据解析和合并来划分或连接列,无论如何要使数据更有意义。 
  • 数据清理和标准化,以消除干扰信息(例如空值和前导/尾随空格),并将值转换为可接受的格式。 
  • 数据匹配和重复数据删除,以识别属于同一实体的记录并消除重复记录。 
  • 数据合并和生存,覆盖过时的值并合并记录以获得单一视图。 
  • 用于捕获更新历史记录并实施基于角色的访问的 数据治理规则。
  • 决定何时执行选定的数据质量进程;在输入时、处理中或数据提交到数据库之前。 

     

  1. 执行 

您已经定义了数据质量级别并配置了数据质量进程,现在是时候执行该框架了。重要的是,首先在现有数据上运行进程,然后为传入的数据流启用它。

 

  1. 监控 
该框架的最后阶段涉及监视和分析数据质量管道处理的数据: 
  • 检查配置的进程是否按预期工作。 
  • 确保在将数据传输到目标源之前消除或最大程度地减少数据质量问题。 
  • 如果系统出现严重错误,则发出警报。 
 
  • 迭代数据质量生命周期 

 

数据质量框架的另一个重要方面是决定何时再次触发循环。例如,有些人可能希望实施主动方法,在每周结束时生成数据分析报告,并对结果进行分析以查看是否遇到任何严重错误。或者,有些实施反应性方法,仅当数据质量恶化到可接受水平以下时才生成数据分析报告。 

一旦再次触发循环,就会执行后续阶段: 
  • 数据质量定义需要更新;
  • 需要引入新的数据质量指标;
  • 数据质量管道需要重新设计; 
  • 需要对数据再次执行数据质量进程,等等。 

 

 

 

文章来源:TLMS微信公众号,未经授权严禁转载!

▍线下公开课&沙龙

▍线上微课&直播课

▍标杆企业游学