首页 > 御数加油站
在项目中开展数据质量和数据治理工作:实践出真知(连载六)
发布时间:2017-09-23 15:23:23

在系统生命周期嵌入数据治理任务——SDLC活动

下列表中概述了上篇文章中描述的SDLC阶段与数据治理和质量相关的活动。第一列表示项目团队在此阶段将参与的SDLC阶段和典型活动。 接下来的两栏列出了在该团队活动期间的高层次数据治理、管理和质量活动。我们将数据治理和管理统一在一起,因为它们是高度相互依赖的、非技术性的,并且侧重于决策,提取数据质量活动更多地侧重于提供解决方案和决策的技能、技术和分析。

   

启动阶段

团队活动

数据治理和管理活动

数据质量和准备活动

定义业务问题和/或机会;

确定范围;

设定目标。

确定范围和目标所需的数据主题领域(例如,客户、订单历史、产品)。

在总体范围和目标范围内为数据质量设定目标。

评估域内数据元素定义的可用性。

说明高质量的数据和信息支持业务目标,质量差的数据阻碍业务目标。

在范围内确定可能的数据来源。

收集已知的数据质量争议,现有的质量指标,并评估可信度。

识别潜在的风险及对项目的数据质量争议的影响。

开始初始资源分配。

在谈判合同、分配人力资源、批准预算和制定时间表时,要确保数据管理和治理活动。

为初始规划、需求分析分配资源,并支持数据质量评估。

在谈判合同、分配人力资源、核准预算和制定时间表时,要考虑数据质量争议,活动和工具。

为初始数据质量评估分配资源,并支持需求分析。

                                      表2-SDLC阶段:启动

 

规划阶段

团队活动

数据治理和管理活动

数据质量和准备活动

确定如何管理和监控项目

确定数据治理和管理将如何与项目团队合作。

计划跟踪和报告数据治理和管理活动的状况。

确定数据知识网络与数据准备活动的项目和非项目资源进行交互的方式。

确定数据质量资源如何与项目团队合作。

计划跟踪和报告数据质量活动的状态。

将支持目标的研究活动。

确定数据源的术语表、数据模型和其他元数据的存在性和完整性;找出差异,并通过必要的活动来缩小差距。

在高层次上确定数据主题领域的需求人群(例如,所有活跃的客户记录、过去10年的订单历史、过去五年的所有当前和过时的产品)。

对主要数据源进行快速的、高级的数据分析。用于为数据源的选择提供输入,并初步了解在项目和本规划阶段需要考虑的数据质量争议。

帮助评估目前已知的数据质量争议对项目的影响/风险。

识别高级别活动,依赖关系和约束。

确定所需的数据治理和管理活动,并纳入项目计划。  SDLC阶段的参考活动。

优先处理已知的数据质量争议,并与数据质量分析人员共同计划解决方案。

跟踪数据准备活动的进度并作为依赖管理。

确定所需的数据质量和准备活动,并纳入项目计划(例如数据分析和其他评估,计划数据质量争议的解决方案)。 SDLC阶段的参考活动。

确定影响或阻碍执行数据质量活动能力的依赖和约束,并帮助评估对项目的影响/风险。

与非项目团队合作,根据已知争议和当前业务需求开始数据准备(例如,总务管理更正,减少数据量),而不是基于新的要求。

制定初始时间表。

预估时间和资源来履行职责实现目标。

为分析数据争议和决策分配时间。

预估执行数据质量活动的时间和资源,以实现包括已知的数据质量争议的目标。

微调资源分配。

调整资源分配,以便在计划期间确定数据治理和管理活动。

调整资源分配,以确定数据质量争议和数据准备活动。

                                                表3- SDLC阶段:规划

 

需求和分析阶段团队活动

数据治理和管理活动

数据质量和准备活动

创建用例。

识别用例中的数据元素。确保用例中的定义与词汇表中的是一致的。

分析用例以促发信息/数据生命周期(创建、存储和共享、维护、应用、处置)。  (来源:McGilvray,pp。23-30。)

执行功能需求分析。

在功能需求分析(分析、过程评审和工件评审)中有数据管理人员参与。

标识与所有功能需求相关的数据元素。

确保业务规则、数据定义和有效值集得到检查、纠正和记录。

在整个SDLC(设计、构建等)中需要确保术语表和数据定义的纠正和更新。

确保需求是源于数据质量评估和数据准备活动。包括基于根本原因分析的改进建议。确保解决方案兼顾纠正和预防措施(例如,业务流程改进、培训、角色/职责变更、自动化业务规则、数据质量监控)。

收集数据质量方面的要求,如完整性、完整性、及时性、一致性、准确性、重复性等。

使用业务规则分析来确保数据质量措施的要求被理解和记录 - 以便测试,初始加载和持续质量检查(在生产中执行)。

进行物理数据分析。

跟踪数据质量活动发现的问题和争议。

确定数据争议和准备间歇对项目的影响。依次添加总体需求的构件,以确保在随后的SDLC阶段得到解决。

根据数据质量活动的结果更新词汇表(例如,业务规则、计算、有效值)。

继续与非项目团队合作,以定位数据准备争议和依赖关系。

执行深入的数据分析和其他适用的评估(使用完整数据集),以确定实际数据与已知要求之间的差距。 SDLC中的学习将在设计,构建和测试中使用。

最后确定感兴趣的数据人群(即选择标准)以及如何访问数据。

确保评估的结果反映在设计、构建、测试期间要处理的需求和构件中。

确定数据质量争议的根本原因。 作为需求和设计的输入。

                                        表4- SDLC阶段:需求分析

 

设计阶段

团队活动

数据治理和管理活动

数据质量和准备活动

考虑结构

确定基于需求处理数据的方法,并识别现有体系结构或工具中的漏洞(例如,使用ETL工具或平面文件加载)。

考虑对高级设计中所有类别的数据进行适当的处理(例如交易数据、主数据、参考数据、配置数据、购买数据和元数据)。

执行问题跟踪和解决。

确定先前识别的数据准备依赖性的状态。

为尚未解决并可能需要纳入项目的数据质量争议设计解决方法。

建议解决实际数据和所需数据质量之间的差距,包括纠正(例如,清除、纠正、增强或创建数据)和预防措施。

依次做出解决方案设计的决策。

创建数据模型设计。

参与模型创建。

纠正数据模型和术语定义。

确定主题领域和数据元素之间的相互依赖关系。


 

创建用户界面设计。

在界面设计中提供输入,以平衡易用性和任务执行的及时性,同时保护数据质量。

识别屏幕中的数据元素。确保在屏幕中的定义与在词汇表中获取的一致。

将定义纳入培训和帮助的内容。

使用分析结果来显示可在用户界面中解决的有效值集,规则和数据质量争议。

创建数据移动/ ETL设计。

复查并验证源到目标映射和转换规则。

寻找机会对有效值集和层次结构进行标准化。

确保从数据源到目标的数据流一致。

使用分析和其他评估结果来识别数据元素内容,因此源到目标的映射和转换是基于实际数据,而不是列标题或内容意见。

帮助确定加载数据的最佳顺序。

创建测试计划

确定在测试期间要验证的关键数据元素,措施和规则的优先级。

确定关键数据要素,措施和持续监控规则(即上线后)的优先级。

确定测试数据和配置文件的来源,以确保内容是众所周知的且将进行对比(即,减少测试过程中遇到问题/增量时跟踪争议的时间)。

规划测试范围内所有类别的数据(例如交易数据、主数据、参考数据、配置数据、购买数据和元数据)。

协助设计数据质量测试方法。 考虑可重用性,以便测试可以在测试周期和实时后复用。

创建部署计划。

确保提供数据构件和文档(例如,业务规则、词汇表),用于帮助、培训和通信内容的生成。

涉及手工过程的文件争议及解决方案,应包括在培训和沟通中。

包括无法自动化的数据准备步骤,必须在系统发布给用户之前手动执行。

在部署计划中包括数据质量检查(例如,在加载之前确认正确的数据源,之后进行数据质量检查)。

                                             表5- SDLC阶段:设计

(待续)

联系我们
地址:北京市海淀区双清路学研大厦B座807室
邮箱:
info@dgworkshop.com.cn
微信号:DGWorkshop_CN
关注我们
Copyright © 2016 御数坊(北京)科技咨询有限公司