首页 > 御数大家谈
这个方法,也许可以让数据质量更好些
发布时间:2017-05-04 11:22:18

         在项目实施过程中,大家是否经常会遇到一些与数据质量相关的问题:不同数据来源的同一含义指标得到的结果却不同;业务报表的指标统计结果与实际情况偏离较大或指标之间的业务逻辑关系不正确;数据信息记录不完整或不符合规范影响业务分析,等等。面对这些数据问题通常有哪些解决方式?存在哪些问题? 可以有哪些改进点?本文将从这些方面来思考,为大家介绍一种提升数据质量的方法—十步法

十步法包含哪些步骤?

  数据质量提升十步法(简称十步法)是美国Granite Falls公司总裁兼首席咨询顾Danette 经过多年的实践经验积累,总结出一套改进与提升数据质量的方法。它将数据质量的提升过程分为:三个提高周期和十步具体流程,在每个数据质量提升的不同阶段含有不同的工作流程,共分为十个流程。如图所示:

2.png

一、评估阶段

定义与数据质量相关的业务需求与方法,分析实际的信息环境与数据现状,评估数据质量情况以及对业务的影响。

 

 

1.        定义业务需求与方法

 

   这一步骤的主要目的是找出有哪些业务受到数据质量问题的影响,或者由于数据质量的改进将会为企业带来更好的业务效益的需求,评估这些业务需求并按照重要等级排序,作为本次数据质量提升的目标与范围。只有明确了业务需求与方法,才能确保要解决的数据质量问题是与业务需求相关的,从而真正的解决了业务问题。

举例,数据质量问题产生的不同层面业务影响:

l   业务决策支持:由于数据质量问题引起的两个不同的业务部门得到的指标结果不一样,哪个指标反映的是企业真实的现状? 以哪个为准?如何做出业务决策?

l   收入和机会:由于客户信息比较准确,使得公司可以与更多客户取得联系,建立良好的客户关系,增加客户营销的机会,反之,也可能由于无法联系到客户而面临失去客户的问题。

l   沟通成本:由于内部数据不规范产生的质量问题导致各部门之间反复沟通;某些线下流程已经审批完成,但线上流程由于某些原因还未完成而导致各部门间反复沟通,数据更新不及时的问题。

l   时间或人力成本:由于数据不准确、数据不完整等质量问题而引起的数据重新加工或业务需求变更,从而使项目时间和人力成本增加。

……

   可见数据质量问题会带来很多方面的影响,面对这些问题,我们是否需要一次性全部解决,达到100%完美的数据呢?

   一个看似简单的数据质量问题并不是突然出现或孤立存在的,它可能是一个漫长累积的、隐性的过程。所以,一般短时间内很难解决所有的数据质量问题,达到100%完美的数据,而是需要经过一个长期的、持续改进的过程。因此,建议按照业务议题的重要程度排序来定义业务需求,循续渐进的提升数据质量。

 

2.    分析信息环境:

所谓“知已知彼,百战不殆”,建议不要省略这一步。这一步的主要目标是进一步细化已定义的业务需求,识别出业务需求与数据、数据规范、流程、组织和技术(如系统、软件等)之间的关联信息,定义信息生命周期,确定数据来源及范围。通过分析信息环境,不仅可以为后续的原因分析提供帮助,也可以使我们对数据问题及现状有一个更全面、直观的理解与认识。

举例,数据与业务角色、技术之间的关系。

 

l   数据与业务角色之间的关系:

 

3.png

 

l   数据与技术(系统)之间的关系:

 

4.png

通过上面的交互矩阵表则可以很直观的呈现出各业务角色、系统功能是如何影响数据的,比如可以发现有两个业务角色同时具有更新转正时间的权限,这样可能会使不同的数据使用者对同一数据得到的结果却不一致等问题。上面是一个简单的示例,除了用表格法还可以用流程图的方式来表达,通过分析生命周期可以使我们了解到数据由哪些角色管理、在哪些系统间流转、涉及哪些流程、可能存在哪些问题等,并最终确定数据的来源,为后续的数据评估做准备。

1.        评估数据质量

 这一步的主要目标是从相关数据源提取数据,围绕已定义的业务需求,设计数据评估维度并利用相关工具完成评估,将数据质量评估结果以图表或报告形式准确的表达出来,使相关领导或业务人员都能够清晰的、直观的了解实际的数据质量情况确保数据问题是与业务需求相关的,并能够得到相关领导或业务人员的重视与支持。

举例,常用的数据质量评估维度有:

l   数据规范:对数据标准、数据模型、业务规则、元数据等对象的测量标准说明。

l   完整性: 包括数据的记录数、填充率、值域分布等核查,确保数据是有效的、无 缺失的。

l   一致性:一是不同数据库、系统或表中相同数据元素的一致性。二个相关数据元素之间的一致性,如城市的名字和邮政编码应该是一致的。

l   唯一性: 测量是否存在重复记录。

l   准确性:对数据内容是否正确的测量标准。

l   及时性:能否及时反映数据的最新情况。

l   ……

理论上越详细的评估维度对数据质量的分析越全面,不过评估所花费的时间也相对越长。所以,在选择评估维度时,还要依据项目规划、具体业务问题来设计出适合的评估维度。

2.        评估业务影响

这一步的主要目标是了解低质量数据是如何影响业务的,为什么这些数据很重要,如果改善这些问题会带来哪些业务价值。

举例,常用的评估业务影响的方法有:

l   事例法:收集相关业务或科技人员了解的低质量数据所带来的影响及典故。

l   用法:结合数据的实际用途来评估低质量数据对其影响。

l   低质量数据的代价:量化低质量数据对成本和收益的影响。

l   ……

评估方式的复杂度越高所花费的时间越长,不过与评估效果却并不一定成正比,所以在评估业务影响时也要注意方法的选择。另外,要将业务影响评估结果及时归档,这样,随着时间的推移即便问题被淡化,也能够有迹可查。

二、认知阶段

识别问题产生的根本原因,针对问题制定出数据改进方案。

 

3.        确定根本原因

在纠正数据问题之前要先确定其根本原因。产生问题的根源有很多,比如:

l   不同源数据集成。当同一数据有多个数据来源时,很可能会带来不同的数据值;

l   在数据产生过程中的主观判断,而不是按照统一业务标准加工。

l   不同系统间编码规则不统一。

l   数据量过大导致加载时数据丢失。

l   ……

   不过,有些问题的发生仅是表象,并不一定是导致错误数据的根本原因,所以在分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因;或者多问自己几遍“WHY”以弄清楚问题的根本原因,进而使问题得到有效的解决,达到治标又治本的效果。

 

4.    制定改进方案

通过前面几步详细的问题分析及原因确定,在这一步则可以有针对性的制定出合理的数据质量改进方案,包括对已知数据问题的改进建议及如何预防未来类似错误数据的发生。

三、行动阶段

经过前面几步:业务需求定义、信息环境分析、影响评估、原因诊断及方案制定的过程,开始按步骤实施改善计划与改正措施。包括:

5.    预防未来数据错误:根据解决方案的设计,实施预防未来错误数据的发生。

6.    纠正当前数据错误:根据解决方案的设计,实施解决现有数据问题。

7.    实施控制:实施持续的监测,确定是否已经达到预期效果。

8.    沟通行动和结果:对结果和项目进展情况沟通。

 小结

        企业信息是不断流动的、会随着外部条件的变化而变化。所以,数据质量不是一次性项目,而是需要持续的受到关注,建立常态监测体系,使数据质量提高周期(评估、认知、行动)得以循环进行。所谓一分预防胜过十分治疗”, 我们必须有意识的主动管理数据,才能够减少问题的发生,确保企业所获得的信息是真实的、及时的、可用的,从而为信息价值最大化提供保障

另外,随着大数据时代的到来,数据环境变得越来越丰富,在改进数据质量的过程中也会面临许多挑战,一方面是来自外部监管机构对数据质量的合规性要求;另一方面是基于企业内部战略转型而滋生的新业务需求,要求数据信息能够高效、准确的表达出来,例如,对来自不同公司的数据集成时,如何降低这些数据的差异以保证数据质量的准确。不过,在面临挑战的同时相信也会创造更多的机会来革新解决方案和技术。

结束语

对于数据质量的提升与管理,不同的人有不同的理解,文中描述不准确的地方还请大家谅解和指正。由于篇幅原因,很多细节问题没有讨论到,如有需要也欢迎进一步沟通和交流。

 

联系我们
地址:北京市海淀区中关村南大街甲6号铸诚大厦B座706室
邮箱:
info@dgworkshop.com.cn
微信号:DGWorkshop_CN
关注我们
Copyright © 2016 御数坊(北京)科技咨询有限公司