首页 > 御数大家谈
【御数·译文】数据管理简史
发布时间:2018-04-04 18:21:57

 图片-御数大家谈-20180404-01.jpg

出处: http://www.dataversity.net/brief-history-data-management/

作者 Keith D. Foote

译者:王少锋

作为一家专注做数据治理的公司,我们能明显感受到近一两年市场对数据治理项目需求和人员需求越来越多。先后咨询过我们或参加过培训的企业涵盖能源、通信、金融(银行、证券、保险、资产管理)、IT、制造、高等院校、航空公司和机场、零售、娱乐等各个行业,纷纷开展数据治理项目、设置数据治理专岗、招聘数据治理人才。前段时间银监会公开发布的“银行业金融机构数据治理指引(征求意见稿)”更是将数据治理推向了空前的火热,市场随即积极快速的做出响应,这个积极的信号说明越来越多的企业、厂商和个人开始关注数据治理。显而易见,数据治理这块蛋糕越来越大,而且这个趋势短期不会变。

数据管理其实很早就有了,这一波数据治理大热源头上看与大数据的火热有关,但是未必会随着大数据热潮的褪去而淡化。大数据更像是导火索,数字时代发展到一定阶段必然会对数据治理提出更多更高的需求。

有一点是肯定的,数据治理方法和理念必须得与时俱进,这也是我们以后努力的方向。让我们共襄盛举,共同推动国内数据治理的发展进步,让越来越多的中国数据治理从业人员站在EDW(Enterprise Data World)年会的讲台上。

 

接下来,我们跟着作者一起回顾下数据管理的发展历程。(以下为翻译内容)


数据管理可以是数据的组织,可以是提高工作效率的步骤,也可以是从数据中收集情报的活动。作为一个概念,数据管理始于20世纪60年代,当时由ADAPSO(数据处理服务组织协会)发布数据管理公告,重点是在专业培训和质量保证方面的评价指标。

数据管理不应该与数据治理以及数据库管理混为一谈。数据治理是一组实践和概念,它优先考虑和组织数据,以及数据政策的执行、各种法规的遵循和减少不良数据的实践。

数据治理本质上是整个数据管理的一部分。数据库管理则侧重于用于创建和更改数据基础的工具和技术,而不是用于组织数据的整个系统。数据库管理也是数据管理的一个细分。

为了更好的理解数据管理,参考下面这个例子:每个机场都有飞出去的航班,每个乘客都有一个目的地,而且到达每个目的地都需要一个或多个航班。此外,每个航班都有一定数量的乘客。信息可以分层显示,但这种方法有一个主要问题,显示的数据可以集中在航班,乘客或目的地,但不能同时展示所有三种数据。显示三个单独的层次结构需要冗余地存储数据,而且开始变得昂贵。此外,更新三个单独文件中的数据比单独更新文件更困难,所有三个层级都必须更新才能消除混淆。而使用网络数据模型可以更加灵活,也能提供更好的解决方案。所以良好的数据管理是商业成功的关键。

数据管理第一次被当做一个问题被提出来是在20世纪50年代,当时计算机很慢而且笨拙,需要大量的体力劳动来操作。一些以计算机为导向的公司,通常要占用整个楼层来存放和“管理”那些存有数据的穿孔卡片,这些公司使用其他楼层来维护分拣机、制表机和一堆卡片。当时的程序以二进制或十进制形式设置,并从计算机正面的打开/关闭开关或磁带,甚至卡片中读取数据,这种编程形式最初称为绝对机器语言(后来更改为第一代编程语言)。

第二代编程语言

第二代编程语言(以前称为汇编语言)被用作组织和管理数据的早期方法,这些语言在20世纪50年代后期变得流行,并使用字母表中的字母进行编程,而不是一串复杂的0和1。正因为如此,程序员可以使用汇编助记符,这使得代码记忆起来更容易。这些语言现在虽然已经过时了,但是它使程序更易于人类读取,并且将程序员从那些单调乏味、容易出错的计算中释放出来。

高级语言

了解基础语言有助于创造一种新的网络服务或应用。高级语言(HLL)是比较旧的编程语言,很容易被人读取,有些现在依然很流行,有些已经过时。它们允许程序员编写不完全依赖于特定类型计算机的通用程序,虽然这些语言的重点在于易于使用,但其主要目的却是组织和管理数据。不同的高级语言具有不同的优势:

  • FORTRAN最初是由IBM在20世纪50年代为工程和科学应用程序创建的,它现在仍然用于数值天气预测、有限元素分析、计算流体动力学、计算物理学、晶体学和计算化学。

  • LISP最初是在1958年描述的,并迅速成为人工智能研究的最受欢迎的编程语言。它的不寻常在于它没有区分数据和代码,并且是第一批在计算机科学领域引发诸多观点的编程语言之一,例如自动存储管理,动态类型和树型数据结构。LISP也可以灵活地扩展其设计者从未想过的方式。(LISP正在衰退中。)

  • COBOL(面向商业的通用语言)由CODASYL于1959年开发,是美国国防部为创建“便携”编程语言进行数据处理的目标之一。它是一种类似英语的编程语言,主要用于商业、金融和管理系统。在2002年,COBOL被修改成为面向对象的编程语言。

  • BASIC(初学者通用符号指令代码)描述了一组通用编程语言,旨在方便用户使用,于1964年在达特茅斯学院设计。(BASIC现在使用得并不多。)

  • C语言是20世纪70年代在贝尔实验室发明的,并在其内部编写了一个操作系统。而这个操作系统就是UNIX,而且由于该程序是用C语言编写的,现在可以将UNIX传输到另一个系统。(目前,它仍然是世界上最流行的编程语言之一。)

  • C ++语言是基于C语言的一种通用编程语言,可以在低内存情况下操作。它的设计很容易更改,同时附带桌面应用程序,可以安装在各种平台上。(它仍然被广泛使用,人气似乎也在增长。)

在线数据管理

在线数据管理系统,如旅行预订和股票交易,必须快速高效地协调和管理数据。在20世纪50年代后期,有几个行业就开始尝试网上交易。目前,在线数据管理系统已经可以处理医疗保健信息,或者测量、存储和分析每天750万次链接会话。这些系统允许程序读取文件或记录,更新文件或记录,并且将更新的信息反馈给在线用户。

  • SQL

SQL(结构化查询语言)由Edgar F. Codd在20世纪70年代开发,主要专注于关系型数据库,能够提供统一的数据处理并减少重复数据量。该程序也很容易学习,因为它直接以英文形式对命令作出响应。关系模型使得快速高效地处理大量数据变得容易。该语言在1985年变得标准化。

关系模型以统一的方式表示关系和主题,它的一个突出特点是在导航、操作和定义数据时使用统一的语言,而不是为每个任务使用不同的语言。关系“代数”用于将记录集作为一个组进行处理,“操作符”应用于整个记录集。

关系数据模型配合上操作符,可以提供更短、更简单的程序。关系模型展现了一些意想不到的好处,事实证明,它非常适合开展并行处理、客户端-服务器的计算和GUI(图形用户界面)处理。此外,关系数据库模型系统(RDBMS)允许多个用户同时访问同一个数据库。

  • NoSQL

NoSQL的主要目的是处理和研究大数据。它起初基本上是一个搜索引擎,具备一些额外的管理功能,而且它并不是关系数据库的一部分。现在已经有了更先进的NoSQL平台,尽管结构化数据可以在研究过程中使用,但并不是必需的。NoSQL的真正优势在于其存储和过滤大量结构化和非结构化数据的能力。数据管理人员有多种NoSQL数据库可供选择,每种数据库都有自己的特定优势。

NoSQL的高效率是其非结构化性质的结果,通过牺牲一致性来获得处理速度和灵活性。这种架构支持横向扩展能力,并且允许那种规模很大的数据仓库(Amazon,Google和CIA)处理海量信息,所以NoSQL在处理大数据方面非常出色。

NoSQL的概念出现在1998年,最初由Carlo Strozzi使用,但直到2005年之后才开始流行,当时Doug Cutting和Mike Cafarella向公众发布了Nutch。Nutch引入了Hadoop(现在称为Apache Hadoop),并且作为“免费”开源软件,很快变得相当流行。

云端数据管理

云数据管理正在迅速成为企业内部数据管理员的额外工作职责。尽管云存储的概念是在20世纪60年代开发的,但是直到1999年才成为现实,当时Salesforce通过其网站提供应用程序。亚马逊在2002年效仿了这个想法,提供包括存储在内的基于互联网的(云)服务。通过互联网在网站上租用应用程序和服务很快成为处理大型和不寻常项目的流行方式。随着这种便捷服务的发展,许多组织开始将大部分存储和处理活动转移到云端。因此,产生了一些云服务为主的创业公司。

云服务现在可以根据需要为组织提供专用的数据管理资源。云端管理数据的好处包括:

  • 获得尖端技术。

  • 减少内部系统维护成本。

  • 增加灵活性以满足不断变化的业务需求。

  • 处理大数据。

SLA(服务水平协议)是用于就客户与服务提供商之间的保证达成一致的合同。由于不同云服务提供商的架构各不相同,因此数据管理员最关心的是根据其组织需求进行调查并选择最适合的服务商。如何兼顾云服务安全性和存储访问的便利性对于云端数据管理员而言是至关重要的问题,应该对其进行深入研究。

人工智能和数据管理

可以预见的是,在未来十年内,人工智能将帮助组织和整理超大规模存储的数据,并对基本程序进行日常决策。作为数据管理员的助理,人工智能将变得越来越有价值。一些例子包括:

  • 处理、管理和存储非结构化数据。

  • 丢弃不相关的数据。

  • 最大限度地提高研究和信息查询的数据集成度。

  • 确定数据的价值,以及存储数据的最佳位置。

人工智能在协助数据管理人员开发和管理功能强大的数据管理程序方面具有非常大的潜力。

 

 

作者简介

王少锋,数据治理咨询经理,数量经济学硕士,中级经济师,取得数据管理专业认证(CDMP)。多年从事银行数据治理及数据标准化工作,先后负责银行、电网企业的数据治理项目,在数据治理体系规划、数据标准管理、数据质量管理等领域有着丰富的实战经验。

联系我们
地址:北京市海淀区双清路学研大厦B座807室
邮箱:
info@dgworkshop.com.cn
微信号:DGWorkshop_CN
关注我们
Copyright © 2016 御数坊(北京)科技咨询有限公司