首页 > 御数加油站
在项目中开展数据质量和数据治理工作:实践出真知(连载五)
发布时间:2017-09-06 17:31:46

数据质量技术

数据质量维度是一些描述数据的方面或特征,它提供了一种衡量和管理数据和信息质量的方法。数据质量维度的示例包括准确性及时性、一致性和同步性。每个数据质量维度需要不同的工具、技术和流程来衡量和管理,所消耗的时间、金钱和人力资源程度也不一样。理解哪些维度适用于项目目标,就能更好的界定和计划工作范围。根据所选数据质量维度所做的初步评估,就可以为项目设置基准线,同时识别需要解决的问题。待确定问题产生的根本原因后,所采取的行动就可以内置到项目计划中,包括根据需要清理或转换数据。持续的评估可以将进展过程可视化,还能揭示从数据转移到生产中的动作是否准备就绪。

数据剖析(数据探查)是使用分析技术来发现数据的结构、内容和质量,可以使用多种技术手段来进行剖析(比如通过写SQL的形式或者使用市场上可用的数据剖析工具)。剖析本身并不等于具有数据质量,然而,它是发现数据的存在、结构、内容、有效性和质量的第一个也是最基本的技术之一。数据质量的其他一些维度,如准确性和重复性,都是基于从剖析数据中学到的内容。

通常称为“数据质量工具”的那类工具,要么是简化数据剖析、监控和清理活动,要么是使这些活动变得自动化。其他支撑数据质量分析的工具包括数据建模、词汇表和分类法、ETL和元数据收集和交换。高质量数据所需要的活动、内容和开发在手工执行或作为文档维护方面非常耗时,这个时候工具就可以带来极高的效率。然而,如果基于健全的治理和管理实践没有明确的方向,工具可能会分散注意力(即成千上万的功能和选项),并产生虚假的安全感(即正在完成某些事情)。只有当明确工具如何为项目带来价值时才要引入工具。

在系统生命周期嵌入数据治理任务

项目本身会引起变化,而这些变化会带来问题并需要很多决策支持。当数据知识网络没有涉及时,就经常会出现意想不到的后果。当我们将数据治理、管理和质量活动放在一起讨论时,就触发了重点关注数据的项目并调动数据知识网络的帮助。由此,我们可以获得有关参与者的协同数据的最佳即时决策。问题在适当的时候被发现和提出,从而为正在进行的工作提供适当的解决方案,并避免新的耗费大的问题。数据质量分析报告对所引发问题的响应,而数据管理员的知识报告解决方案。然后,项目组成员可以做出更好的决策,例如优先考虑哪些问题,以及如何有效地纠正根本原因。一旦我们清楚了我们关注的项目数据的重要性,接下来问题是“我们如何将重点放在SDLC的数据上?” 接下来,这篇报告概述了七个阶段 ——启动,规划,需求和分析,设计,构建和测试,部署和生产支持——以说明整个SDLC中集成数据的质量。

        SDLC阶段

下面是各个阶段包含的精炼陈述:

        ● 启动 - 阐明要解决的问题或机会; 把项目付诸实施;授权和定义范围和目标;并初始化资源分配。

        ● 规划 - 完善项目范围和目标; 制定管理、执行和监督项目的计划;识别项目活动以及活动之间的依赖关系和约束关系;并制定初始时间表。

        ● 需求和分析 - 研究、评估和确定详细的需求和目标;确定优先事项;将活动排序并和对计划进行优化完善。

        ● 设计 - 定义解决方案的选项,并根据依赖和约束关系选择最佳选项;确定如何满足解决方案的功能需求和质量需求;并根据需要调整计划和需求。

        ● 构建和测试 - 构建解决方案并确定是否满足要求;并根据需要调整计划,需求和设计。

        ● 部署 - 将解决方案推向生产;交付给用户;保持部署的稳定;并逐渐过渡到运维阶段。

        ● 产品维护 - 维护和增强解决方案; 并在运营环境中支持用户。

        在管理修改或创建系统、软件和方案的复杂性方面,目前在用的SDLC模型有多个。由于项目团队采用的方法和其他因素不同,这些阶段划分在名称、组织、协调、时间安排和形式上都会有所变化。尽管SDLC中的名称和阶段数量会有所不同,但可以将其大部分映射到这七个阶段。比如,在几乎每一个项目中都有一些与收集需求相关的活动。虽然叫的名称不同,但是只要是在收集需求,就应该把项目的这个阶段中的数据质量考虑在内。不论应用哪种SDLC模型,都可以找到活动适合的阶段。

(未完待续)

联系我们
地址:北京市海淀区双清路学研大厦B座807室
邮箱:
info@dgworkshop.com.cn
微信号:DGWorkshop_CN
关注我们
Copyright © 2016 御数坊(北京)科技咨询有限公司