明略软件:银行业全行级知识图谱数据库

专题库
来源:中国电子银行网 2018-09-25 19:48:19 2018中国金融科技创新榜明略软件 金融科技企业案例

核心提示“2018中国金融科技创新榜”科技企业参赛案例

  1.案例背景;

  该案例基于大数据应用开发平台,通过采用复杂网络、图计算等大数据算法,实现海量数据和非结构化数据的分析和探索,搭建远程监控体系下复杂计算及非结构化模型建设的框架,加强对业务开展过程中的风控能力。

  2.需要解决的问题及解决方案;

  远程监控体系是加强银行内控合规管理的重要手段,是各机构、各条线加强自身内控合规管理的重要工具。在银行的监控体系中,可以融合一二三道防线都要全力参与,共同发现包括 “贷款资金回流”、“贷款资金被挪用”、“员工与授信客户往来”等问题,这些问题因涉及到大数据量运算、算法复杂、非结构化数据处理等难题,传统的技术和手段难以解决。

  3.案例应用实践及效果;

图一:项目整体架构图
图一:项目整体架构图

  项目建设流程如下:

  金融行业知识图谱项目一般可以分为知识构建、知识存储、知识计算、知识应用四个主要部分,分别包括一些技术要点和难点,又统一起来服务于一个业务目标。

  (1)知识构建 —— 全量数据治理,构建全行知识图谱

  行内数据资源的获取和整合不仅依赖数据爬取、多源异构数据治理、分布式数据存储等技术,也依赖强大的外部数据资源协作能力和内部推动能力。知识图谱构建技术,从多源异构的数据中抽取实体信息,链接和融合实体,推理补全属性,识别语义并建立关系,并最终将知识存储于知识图谱数据库中。

图二:资金往来查证展现视图
图二:资金往来查证展现视图

  将金融机构的全量数据金融基于知识图谱的数据治理后,可以获得包含基本实体、属性,以及从数据中可以构建的显性关系的基础知识图谱。对于该银行客户,明略数据为其治理了近十年的全量数据,构建了全行级知识图谱,梳理出数十个实体类别,近百个关系,包括行内客户类数据、机构类数据、企业类数据、业务流程类数据等进行治理和整合,在这个阶段获得以企业客户、账户、产品为核心的,包括企业客户之间、企业与产品之间基本关系、担保关系、资金往来关系的知识图谱。

  (2)知识存储 —— 知识应用的重要工程保障

  知识存储阶段承担的使命不仅仅是存储知识,更重要的是为知识应用提供稳定、准确、高效的运转能力,同时还需要支持增量数据和业务变化带来的海量知识更新。

  明略数据站在技术选型的角度,从传统的关系型数据库、key-value数据库到时下流行的各种图数据库都可以作为知识存储的基础,可以结合数据规模、应用规模、性能要求和整体IT架构规划综合做出选择。

图三:知识图谱谱数据库架构
图三:知识图谱谱数据库架构

  运用混合型数据存储技术,可支持海量数据图谱的高效存储和查询。在知识图谱数据库中,核心图谱数据将存储对象抽象为“实体-关系-事件-文档”,根据不同的数据对象类型,使用最合适的存储方式以及对应的查询方式,其中包括图存储、列式存储、索引存储、文件存储。使用明略知识图谱数据库可以通过Java API或者NQL这一独立开发的查询语言(类似SQL的作用)对知识图谱数据库中的数据进行快速访问。此外知识图谱数据库还提供了批量数据导入工具和内部状态及性能检测工具。

  (3)知识计算 —— 建立基于专家规则、机器学习和图挖掘的行业模型

  知识计算阶段的核心任务是计算隐性关系和扩展属性,这是知识图谱体现智能的重要特点。在银行知识图谱平台的构建中,明略数据结合专家规则、机器学习和图挖掘等人工智能技术,结合风控的业务目的构建行业模型,挖掘企业客户之间形成的集团、一致行动、实际控制等潜在隐性关系,形成相应的规则和模型计算,构建资金流转网络、担保关系网络等。

图四:知识计算挖掘资金回路
图四:知识计算挖掘资金回路

  围绕着知识图谱数据,知识计算引擎支持实体查询、事件查询、在线隐性关系计算和挖掘、基于事件的动态关系推演等基础查询功能,同时支持不同数据类型的复杂检索(多属性组合、多关系组合、多事件组合查询)。明略金融知识图谱内部通过智能的查询分析和复杂的逻辑计划优化过程,结合分布式计算和NQL等用户友好的查询语言,将一个查询分解成不同类型的子查询进行分布式处理。

  这个阶段应用的技术能力除了自然语言处理,还包括规则引擎、机器学习和图挖掘等数据挖掘技术,需要工程师、数据科学家和行业专家协同完成。同时,为了检验所构建的显性和隐性知识的完备性、相关性和一致性,需要结合专家知识和特定的知识计算方法进行校验,处理其中缺失、冲突、冗余知识。

  通过知识计算,明略数据为该银行贡献了包含经过验证的显性和隐性知识的完整知识图谱,作为知识应用的数据模型基础。

  (4)知识应用 —— 搜索、业务应用和问答

  知识应用是最直接体现知识图谱智能化的部分,也是使用者能直观感受到其价值的部分。从Google提出该概念到微软、百度、搜狗的快速跟进,搜索一直都是知识应用最典型的场景,在完整的知识图谱之上,我们的搜索需求可以被解构成明晰的案例,搜索体验完成了从匹配文本内容到“问题-推理-答案”的重大升级。

  应用效果:

  知识图谱在国内银行业的首创应用

  目前国内银行业内唯一一个全行级知识图谱应用,构建全行近十年全量数据构建成“企业、个人、机构、账户、交易、以及行为数据”规模达十亿点百亿边的知识图谱数据库,作为银行基础数据资产,为行内其它应用做底层数据支撑

图五:客户关系网络和资金流转全貌
图五:客户关系网络和资金流转全貌

 展现完整的客户关系网及资金流转全貌

  生成客户关系网络图谱,完整展现对公客户“个人-企业-个人”的复杂关系,构建复杂的资金流转全貌,通过图挖掘技术,挖掘复杂的隐形关系和利益共同体,实现无死角的资金监控管理。

图六:客户关系网络与资金流转网络分析快照管理
图六:客户关系网络与资金流转网络分析快照管理

  实现业务应用模型

  建设监控预警、追踪查证为主的业务应用模型,体现大数据模型项目业务价值,提升非现场审计效率和能力。

图七:图谱查证功能展现
图七:图谱查证功能展现

  多元异构数据处理能力提升风控水平

  通过搭建模型管理框架,引入图像识别、自然语言处理、情感分析等技术,具备多种非结构化数据处理能力,有效提高远程风控技术水平。

  更多业务应用可能

  未来可以围绕基础能力对上输出的能力,层建设更多在远程监控体系下的业务应用。

  4.方案前景。

  实际案例中明略数据为某大型股份制银行建立全行级知识图谱平台,基于明略自主研发的包括结构化数据治理、非结构化数据治理、知识图谱数据库、知识图谱人机交互平台等技术产品在内的金融知识图谱,为其搭建远程监控体系下的新一代数据分析和挖掘平台,实现海量数据分析和探索,解决传统技术无法解决的问题,加强远程监控的工作广度与深度,从而提升远程监控业务效率和能力,实现智能化:

  数据维度:全国首个全行级知识图谱平台,整合全行近十年全量数据治理数十个实体类型,近百个关系类型,构建成“企业、个人、机构、账户、交易、以及行为数据”规模达十亿点百亿边的知识图谱数据库。如此大规模的数据治理与数据架构重构,可以展现复杂的资金流转全貌。

  技术维度: 整合分布式存储、图计算、机器学习、自然语言处理等领先技术,全面提升业务主题下分析和挖掘结构化、半结构化、非结构化数据的广度、深度和效率,实现数据价值的深层挖掘。利用自然语言处理技术,处理数亿条地址标准化数据,并成功利用地址进行隐性关联挖掘分析,帮助银行发现传统技术无法挖掘的隐藏风险。

  业务维度:通过知识图谱的构建,连接银行全业务条线全维度的数据,构筑客户关系图谱、资金流转图谱,并建设新型的监控预警和追踪查证模型及应用。通过专家规则、机器学习、图挖掘等方式,建立客户异常交易发现模型、员工异常行为发现模型、图谱查证模型等,挖掘复杂的隐形关系和利益共同体,极大扩大了监控的覆盖范围和监控效率,实现无死角的资金监控管理。突破性快速挖掘三度以上资金流转情况,上线初期,创造性挖掘上百笔资金回流情况,信用卡套现和员工受贿行为,极大减少银行风险损失,加强银行远程监控能力,提升风险管理水平。

责任编辑:方杰

收藏

  • 最新
  • 最热

    点击加载

      点击加载

      我要评论
      普通评论
      游客

      登录后参与评论

      为你推荐

        暂无相关推荐
        财源源二维码

        热文排行

        • 今日热点
        • 每周排行
        合作媒体

        中国网络电视经济台 | 和讯银行 | 新浪理财 | 凤凰理财 | 腾讯网 | MSN理财 | 网易科技 | 中华财会网 | 第一财经网 | 北京商报网 | 和讯科技 | 财新网 | 中国网理财 | 金融界银行 | 光明网经济 | 东方财富网 | 经济观察网 | 中国经营网 | 赛迪网 | 新华信息化 | 中关村商城 | 同花顺金融服务网 | 环球网财经 | 投资时报 | 钛媒体 | 中国金融新闻网 | 新华网财经 | 人民网金融频道 | 中文互联网数据研究资讯中心 | 中金在线 | 外汇 | 品途网