功夫:2023-06-14 作者:御数坊
客户企业创新性的提出智能化与协同化的治理理念,针对数据纳管、资产内容运营、资产质量监测、数据分类分级、数据贯标等五大数据治理主题活动,索求并构建了多种智能服务能力,提升治理工作效能达40%以上,以智能化为基础设置了多团队协同的工作场景,节俭业务团队、技术团队、数据团队参加数据治理工作时的工作成本,进而使数据治理模式从管控走向合作,通过多方协同的结合行动,推进公司内部数据资产价值的阐扬。。。
2020年,中共中央、国务院颁布《关于构建越发美满的身分市场化配置体制机制的定见》,将"数据"与地皮、劳动力、本钱、技术并列为五大出产身分,提出"加快造就数据身分市场"的号召,标志数据已经成为经济社会发展的基础性、战术性资源。。。
2021年,证监会颁布《证券期货业科技发展“十四五”规划》,将健全美满行业数据治理系统纳入“十四五”时期数字化转型的工作方向之一,并规划设置了数据治理制度系统、组织系统与数据尺度、数据质量、数据安全等数据治理细分领域的重点建设工作,为行业内各机构发展数据治理工作带来了明确的工作指引。。。
近年来,行业各机构在外部监管要求和内部数据使用痛点的情况下,先后发展了数据治理工作,成立了组织、颁布了制度、建设了工具。。。但实际中,可能由于短缺具体工作切入点、业务团队参加水平低、工具无法有效承载工作步骤等问题,最终导致数据治理业务价值回报缓慢,治理成效达不到使用需要。。。
通过智能协同型数据治理平台的构建,进展在数据治理的数据纳管、资产内容运营、资产质量监测、数据分类分级、数据贯标等治理活动的关键节点上使用天然说话处置技术、智能算法、深度学习等技术伎俩,构建企业级的治理知识模型,形成中文语义信息智能推荐、资产可信度推算、数据质量监控规定智能推荐与构建、数据安全分类分级了局智能判定以及数据尺度智能映射的治理能力,提升企业数据治理的效能,开释在治理活动中投入的大量的人为工作量;;;通过数据治理平台固化治理步骤论,在智能化能力的基础上形成业务人员、技术人员、数据人员三方合作的协同场景,提高业务团队的参加度。。。
本项目最终建设实现的数据治理平台,在数据治理各领域中阐发优良,为业务部门、技术部门、数据部门都提供了优良的后盾支持,同时充分融入了天然说话处置技术,使平台具备多项智能化的能力。。。数据治理平台中的协同化数据治理场景和智能服务能力都拥有很好的可借鉴价值,是证券期货行业数据治理高效落地的实际案例。。。

为了有效推动数据治理的落地,本项目引入天然说话处置技术提供智能服务,节俭人力投入,使用的关键技术内容如下:
1)文本向量化技术。。。本项目平别离使用了词向量技术和句向量技术。。。其中词向量技术是指把词语转化为对应向量的表白大局;;;句向量是指将句子中各个词向量转换后进行加权均匀,形成对应的向量。。。将文本向量化处置后,能够使文本转变为数学说话供推算机鉴别,本项目平别离使用了Word2Vec和Bert技术进行了向量转化。。。
2)数据项类似度匹配。。。在本项主张五个数据治理协同场景中,必要实现数据项与数据项、数据项与公司数据分类分级框架、数据项与数据尺度的匹配。。。匹配前要先将有关实体进行向量化,使用余弦类似度算法推算,将类似度最高的对象推荐为匹配对象进入下一步协同确认环节。。。
3)超短文本语义与语境鉴别。。。本项目涉及的各类数据项,如数据表、数据字段、报表指标等,通常只有超短文本,为了提高有关数据项在类似度匹配中的正确率,必要别离从超短文本中鉴别语义和语境。。。项目中使用textRank算法,进行修饰词和主题词提取实现语义鉴别,例如“身份证有效期”,对于这个字段“有效期”是主题词,身份证是修饰词,在类似度匹配时,别离对主题词和修饰词分配分歧的权重,以凸起数据项的有关语义。。。同时项目中将数据项的有关对象构建为句作为该数据项的语境信息,例如“开户日期”这个字段,会将它地点表、地点表的其他字段构建成的句向量作为语境,在类似度匹配时使用。。。
4)资产可信度评估。。。项目中会对数据资产运营活动时获取的各类评论信息进行语义分析,构建感情分析模型,结合数据资产的数据血缘汇集情况,鉴别出利用系统中的主题数据资产。。。
本项目是针对数据治理发展过程中的多部门协同场景,通过组合使用天然说话处置技术,简化数据治理工作步骤。。。在各协同场景平别离解决如下问题:
1)数据纳管协同场景。。。该场景中有一个业务属性补录环节,往往必要业务人员、技术人员补录缺失的元数据信息。。。对于已纳管的利用系统,存量数据已经补录过元数据,但是增量数据由于在源端业务系统中缺失,所以纳管时仍需进行补录。。。通过使用天然说话处置技术将增量数据和存量数据进行匹配,对于匹配上的数据项,将有关元数据信息进行推荐,从而简化业务属性补录的工作投入。。。
2)资产运营协同场景。。。数据项颁布为数据资产后,工作步入了数据资产运营提升阶段,依附于数据资产使用者的评论信息,提升数据资产的内容质量是该阶段工作的一个重点。。。通过天然说话处置技术鉴别评论中的语义感情,结合数据血缘信息,有助于量化数据资产的可信情况,提升数据资产使用者的履历。。。
3)质量监测协同场景。。。技术类数据质量规定往往是能够在分歧数据表下的数据字段上进行复用的,但是由于规定配置必要巨大的人为投入,导致数据质量规定并不能全数覆盖监测对象。。。通过天然说话处置技术,实现分歧数据表下数据字段的匹配后,能够将有关数据质量规定推荐复用,在节俭工作量投入的同时扩大了质量监测领域。。。
4)分类分级协同场景。。。在使用业务数据链的步骤构建相对不变且合用于整个公司的数据分类分级框架后,使用天然说话处置技术实现利用系统中数据和数据分类分级框架中的匹配,解决传统数据分类分级正确率低、适应性差的问题。。。
5)数据贯标协同场景。。。在数据尺度制订后,利用系统中的存量数据必要先和数据尺度间成立起映射关系,为后续系统刷新提供基础数据支持,但是重大的存量数据使该项工作无法进行,合用天然说话处置技术实现存量数据和公司内已颁布数据尺度间的映射关系,降低有关的工作投入。。。
数据治理平台上线后,陆续接入客户有关业务系统、数据分析系统等,数据覆盖客户60%业务类型,内容蕴含数万张数据表、数十万个数据字段、几十张数据报表、数百个报表指标、数百个指标尺度、近千个基础尺度等数据资产,且有关数据资产均已实现了数据分类分级。。。此外,针对利用系统中部门主题报表中的主题数据项配置了数百条数据质量规定。。。
在公司推广方面,本项目组面向分歧的平台使用群体,别离以业务使用视角、技术治理视角、数据运营视角对平台发展了屡次专项培训。。。第一批推广面向技术团队,以技术团队用数视角,分享了数据资产中心、元数据中心、数据质量中心和数据尺度中心的内容,着重介绍了平台中的数据资产内容,以及数据血缘分析、调换影响性评估、数据质量监测等职能场景。。。第二批推广面向数据团队,以数据团队用数视角分享了数据资产中心中各类数据资产的具体内容,并具体介绍了“以用促提”的数据资产运营思想。。。第三批推广面向所有业务部门,以业务团队用数视角分享了若何在数据资产中心挖掘出业务需要所需的数据知识。。。
本项主张建设成就不会直接带来经济收益,但是可以为公司数字化转型的各项工作带来便捷,从而节俭人力成本的投入,提升工作效能。。。重要体现如下:
1)通过数据纳管协同与数据资产运营协同带来的优质数据诠释,可能直观的援手业务人员理解数据、援手技术人员把握底层逻辑,节俭各类数据需要挖掘、分析、开发、测试环节的沟通成本,同时削减由于数据口径不正确导致的一系列数据问题。。。
2)数据质量监测协同场景引入了在类似的数据资产上推荐出有关的数据质量规定的能力,预防同类型数据质量规定反复配置所需的人为投入,节俭数据运维成本的同时,更为全面的执行数据质量监控。。。
3)智能数据分类分级协同场景带来了便捷的数据分类分级伎俩,在大量节俭数据分类分级工作量投入的同时,使数据分类分级的了局趋于不变,不会随着系统建设、系统重构等情况导致汗青了局无法使用,使数据安全治理的侧重点从实现数据分类分级转变为若何基于数据分类分级的了局,实现更为精准的数据安全管控。。。
4)数据贯标协同场景是成立利用系统中存量数据和公司内数据尺度间的映射关系,为后续利用系统的落标刷新以及利用系统间的数据交互提供了统一的沟通凭据,节俭了数据开发时的沟通成本。。。

“鑫智奖”第四届中小金融机构数智化转型优良案例评比活动网络投票功夫为2023年6月13日9:00-6月16日17:00。。。本次投票将评比出“网络影响力TOP10优良案例”。。。
以上案例已经入选“鑫智奖”第四届中小金融机构数智化转型优良案例评比活动,御数坊诚邀各人为AB钱包案例投票,您的每一票都是御数坊前行的动力。。。感激您的投票!
旗下网站
95015服务热线
微信公家号
立即拨打