首页 > 御数大家谈
【御数·译文】企业数据资产管理推动数据治理
发布时间:2017-05-04 08:53:03

          每个企业都认识到数据治理是一项需要遵循的重要实践,因为它可以释放数据的商业价值,并有助于识别风险。尽管这是显而易见的商业意识,但通常组织机构在讨论到具体实施数据治理的时候却望而却步。数据治理被认为是一项颇具挑战性的提议,因为其中涉及到制定具体的政策和流程,并且还需要专人负责以保证这些政策、流程付诸实施。

毫无疑问,这些都是所有数据治理过程中的关键组成部分。但是这种自上而下的数据治理方法却遭遇了如高层支持、文化匮乏、资源支撑等诸多方面的阻碍。而如果反其道而行之,遵循自下而上的方法,首先识别对数据治理至关重要的企业数据资产并编目,再开始数据治理可能将会更加容易一些。

常言道:千里之行始于足下,每一件大事都是从小事开始的。在数据管理领域,不同的数据管理阶段会关注不同的数据,需要在每个阶段识别管理的重点范围。所以如果我们一开始就采取小一些并且颇具战术性的策略来收集这些数据资产,将会使数据治理项目发展得更加深入。

数据溯源

解决业务问题的源系统是数据仓库的数据提供方。企业能够从彼此独立的系统中溯源数据,所以获取所有数据源的信息并且知晓其在企业中有何作用就变得很有意义。具有以下信息的数据源系统文档将会使目标更加具体化。

  • 源系统的名称

  • 源系统类型(如:交易、CRMWeb应用

  • 从此系统中将会产出什么类型的数据?(如:交易数据、市场数据、Web日志…)

  • 从系统中生成数据的格式?(如:平面文件、XML文件、非结构化文件…)

  • 源系统是否提供主数据,如客户或产品的数据?

  • 谁是系统的业务方,谁是技术方?

  • (业务线上)谁使用这个系统,及为什么使用这个系统?(如:分析、运营报告、监督报告)

  • 多久从系统中生成一次数据?(生成数据的频率)

 

成功的数据治理可以确保数据是可信的和有意义的,这份文档将会帮助你确认从正确的系统里取得了正确的数据

数据建模

在企业数据建模中,需要维护的基本资产是业务术语表和血缘关系文档(包含数据的上下文和从源到数据库的相关描述)。

业务术语表–是一个对业务术语进行全生命周期管理的核心场所。通常其中包含的细节可以回答以下问题。

  • 业务术语的名字是什么?

  • 业务术语的含义是什么?

  • 有没有类似的业务术语?(这个业务术语可能有其他别名,所以非常有必要将所有的列举出来)

  • 业务术语的所有者是谁?(谁定义了这个业务术语)

  • 谁是数据管理员?(谁来创建和维护这个业务术语)

  • 谁是业务术语的审批者?

  • 这个术语适用的业务规则是什么?(如:业务逻辑、数据质量规则…)

  • 有没有与之关联的参考数据?

  • 谁?为什么使用这个业务术语?(一个需要询问的必不可少的问题,因为同样的术语对不同的人而言可能意义不同)

  • 文档修改历史(谁修改了什么?)

业务术语表帮助IT和业务间拥有共同的沟通和协作模式,从而为数据治理项目打下坚实的基础

数据模型血缘关系文档用来展示逻辑、物理实体和数据元素在系统中的映射关系

  • 逻辑实体的名称是什么?

  • 产生的源头是什么(实际的源表/文件名)?

  • 有哪些属性属于这个逻辑实体?

  • 属性映射到源头的哪个栏目?

  • 映射到的物理实体是什么?

  • 映射到的物理属性是什么?

  • 什么最能定义这个实体和属性?

  • 属性的值域是什么?

维护一个数据模型血缘关系文档是非常重要的,因为它提供了完备的可追溯性,能够知道源系统数据是怎样被建模成仓库的,同时也可以对任何可能的变更进行影响分析。

数据集成

由于数据被集成到了数据仓库中,所以捕捉到数据的源头及数据是怎样在系统间转换的就非常有必要。包含以下细节的数据映射关系能使这些一目了然。

  • 源表文件是怎样被映射到数据库的表列的?

  • 源和目标列的数据类型

  • 应用到源数据的数据质量规则是什么?

  • 从源到目标的数据转换规则是什么?

  • 加载目标的加载策略是什么?

  • 在集成过程中有没有使用参考数据?

  • 从源加载目标表的频率

数据模型血缘关系文档和数据映射关系文档是数据治理的核心资产,因为它提供了数据从不同来源集成到目标系统中的可视化流程。数据流的透明性有助于满足合规性需求,这是数据治理的目标之一。

数据报表

这是数据管理中至关重要的一层, 因为只有通过BI报表展现, 才能使目前数据仓库中收集到的所有数据变得有意义。要跟踪所有报表及其使用情况,报表清单文档必须提供以下信息:

  • 报表的名称是什么?

  • 报表的用途是什么?解决了哪些业务问题?

  • 报表是什么类型的?(运营、交易、分析)

  • 从业务和技术上看报表的所有者是谁?

  • 报表中的维度和度量是什么?它们是怎样定义的?

  • 这些维度和度量使用的源是什么?(数据库、表、列)

  • 这些措施中使用的什么样的业务规则?

  • 报表的生成频率是多少?

  • 报表的目标受众是谁?

  • 报表生成的服务等级是什么?

这个文档有助于跟踪重复或未使用的报表,也能确保通过正确的报表传递了正确的信息给正确的人。

如上所述,因为数据是流动的所以每一层都和下一次层相互关联。如果跨层次管理数据资产,并连接相应的关键点,将得到一个清晰的可视化的数据流动和转换地图。相信我,你的团队在进行数据建模、集成、报告过程中必须以某种形式创建这些文档,因为这是传统“家务”。它们也可能会使用一些行业标准工具来捕获这些信息,并维护这些数据资产。因此,为了将这种“家务”付诸“实践”,组织需要制定正式的政策、流程、并分配专员来确保这些内容在每个层次真正被遵循。如果我们采取这种小步策略,并遵循这些政策和流程,那么数据治理将不是一项复杂的任务,而是一个可以实现的使命。

关于Madhu Zode

Madhu Zode是数据架构师,在使用规范模型建模、ETL架构、集成设计和实现等方面拥有广泛的经验。她已经发表的白皮书如下:"ETLEvolution" (DM Review, 2007), "Grids in DataWarehousing" (The Data Administration Newsletter, 2009) and"CanonicalData Model: Does It Actually Ease Data Modeling?” (Information Management, 2015). 

From:http://tdan.com/managing-enterprise-data-assets-to-enable-data-governance/19634

联系我们
地址:北京市海淀区中关村南大街甲6号铸诚大厦B座706室
邮箱:
info@dgworkshop.com.cn
微信号:DGWorkshop_CN
关注我们
Copyright © 2016 御数坊(北京)科技咨询有限公司