金融行业数据安全治理项目

中国企业在“十四五”新时期,正式进入到了数字化转型的新时代,在数字经济大发展的背景下,数据成为重要的生产要素,与之相关的数据保护问题逐渐成为金融科技创新发展的关键。随着与数据应用有关的各类风险持续变化,当前金融机构已意识到保护金融数据资源的重要性。

所属行业

管理员

案例介绍

随着金融智能化程度的进一步加深,技术创新、业务模式创新带来了更多的安全和协同问题。


“技术创新、开放共享是把双刃剑,在给金融发展注入新动能的同时,数据隐私泄露、业务交叉风险等安全问题也日益凸显,对金融机构的风险管理与稳健经营提出了更高要求。同时,中国企业在“十四五”新时期,正式进入到了数字化转型的新时代,在数字经济大发展的背景下,数据成为重要的生产要素,与之相关的数据保护问题逐渐成为金融科技创新发展的关键。随着与数据应用有关的各类风险持续变化,当前金融机构已意识到保护金融数据资源的重要性。


金融行业数据安全分级技术探索


  • 智能化产品介入

智能化数据安全定级:基于御数坊DGOffice数据安全管理平台,智能化分级定级功能,对企业客户数据进行智能化分级处理,得到结果与人工结果进行比对和认证,智能化结果更优。


行业数据安全规则知识沉淀:基于DGOffice智能化定级模型,沉淀企业客户数据安全规则知识,建立智能化数据安全管理的基础。



  • 构建金融领域业务语料库

建立权威标准:基于御数坊DGOffice数据安全平台逐步构建行业、企业术语语料库,提供权威业务解释及标准口径;并可以将语料库提升成为行业标准。


提升安全能力:以语料库为依托,建立业务术语关系网络,助力数据安全定级智能化能力提升。


数据安全智能定级方法


第一步:建立安全特征库

将安全语料库经过算法的运算与统计,形成安全特征库;

以此为基础开展后续业务特征权重的数据安全分级定级推断。


第二步:标注默认等级

•参照相关的内外部标准规范要求进行数据安全分类;

•根据分类标注应达到的最低参考数据等级。


第三步:深度学习定级

选择业务域加权的数据安全分类分级智能算法;

数据匹配,断言数据安全等级。


第四步:人工辅助定级

•对于部分存在争议的数据项,应由数据的归属部门着重说明其调整安全等级的理由和原因、重新调整期安全等级;

•纳入数据安全定级知识。


第五步:完善语料库

依据定级结果将数据项拆分成修饰词、基本词和类别词

完善、补充数据安全语料库


基于流程步骤,客户按照要求准备了相关资料,包括分类信息,分级信息,1623张可分级的有效表,39082个有效字段和993个中英文对照行业词根表。我们根据以上客户提供的所有资料,建立词向量,分类分级规范关键词源对象分词482个,数据关键词目标对象分词6429个。


重点需要解决的技术难点在于,解决源对象与目标对象的语义匹配问题,根据目标对象语义,推荐出语义最相近的源对象。所以,我们引进了先进的关键技术:统计模型+语义向量【语料库】数据分级编码的关键词,数据表及字段的关键词,建立词向量。【加权】技术加权:TF-IDF计算,把每个对象看作一个document;业务加权:对表中文名加权50%,字段中文名加权50%;【加权语义向量】分别把关键词和表都转化为文本语义向量。


我们主要依据482个规范关键词,通过算法进行四级分类(表级定级)。将482个关键词建立200维的词向量约7M,语料数据及质量不足以支持训练词向量(一般至少需要1G以上),为了能够满足语料信息,我们引入外部语料(金融行业新闻、维基百科)建立共3.3G词向量,采用深度学习算法,得到结果与人工定级结果相比最高达到42%的准确率;与四级分类盲选的概率相比约有数十倍提升


在这个过程中,我们发现引入的外部语料对金融行业的业务针对性不强,但对算法支撑仍有明显的提升帮助。基于这样的一个结果,我们建议后续的智能分级工作,能够增加相关金融行业规范、数据模型描述,加强语料数量级语料可用性。


项目结论及总结


我们为客户完成数据安全定级工作,类比人工进行定级工作,智能平台的介入优化了人力成本,减少了原有人工需要累计多部门多人员参加盘点梳理的状态,仅需要1名操作人员即可完成全部定级工作。同时,在时间上免去了原本动辄数月的繁复工作,实际实施时间缩短至2周,2周时间我们完成了语料库的建设、包括6种算法模型的调整;20多个版本计算,字段级自动定级工作。


人工定级,会基于大量行业、业务经验,相对准确,但定级较粗,容易产生人工失误。智能化定级是基于有限的标准规范关键词,缺乏足够的业务描述,准确度与人工定级存在差距。但基于自动分级结果能修正部分人为失误。


灵活度方面,人工定级对未来需求的响应依赖于大量人员、时间的投入。已有成效难以复用。智能化平台的介入一方面让模型可复用,快速、即刻响应需求变化,语料库可复用,不断更新积累关键词,形成行业知识壁垒。另一方面,让语料库可复用,不断更新积累关键词,形成行业知识壁垒。


该项目产出的主要成果:

  • 语料库

•基于数据准备资料完成482个规范关键词及6429个数据关键词共计6911个语料

•引入外部语料丰富语料库并促使语料可用及词向量的建立


  • 词向量

•基于语料库生成词向量

•完成关键词的技术加权及业务加权,建立语义特征


  • 算法模型

•在有限的语料基础上,经过多轮多参数调整,形成智能分级算法模型

•完成表级、字段级的智能分级


在本项目的实施过程中,我们在取得既定成果的同时,也发现了其中的不足之处。首先我们在收集客户语料量时能够发现语料数量不足,可用性较差,不足以支撑智能化平台进行深度学习算法及词向量的建立。其次,企业本身对于分类业务规则依据不足,定级准确率与实际实施效果有差距。我们希望企业能够更加注重,数据资产业务规则信息,包括业务分类、描述、业务规范、业务流程、数据模型等信息的补充工作。


金融行业数据安全智能化分类分级项目具有极高的应用前景,一方面,建立了专属于客户所在行业内的行业语料库,以安全语料库为基础,通过标签管理,建立企业业务规则库,应用于质量、标准、资产等数据治理领域。还可以进一步将语料库上升为所在行业的规则库。另一方面,项目成果高可复用,将智能定级机制复用于多种业务场景,如资产识别、资产认责、标准识别等场景。