内容简介:某股份制银行——分布式内容管理解决方案
本篇案例为数据猿推出的大型“金融大数据主题策划”活动( 查看详情 )第一部分的系列案例/征文;感谢 巨杉数据库 的投递
作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融行业信息协会、互联网普惠金融研究院联合主办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《 「数据猿·超声波」之金融科技·商业价值探索高峰论坛 》还将在上海隆重举办【 论坛详情 丨 上届回顾 】
在论坛现场,也将颁发“ 技术创新奖 ”、“ 应用创新奖 ”、“ 最佳实践奖 ”、“ 优秀案例奖 ”四大类案例奖
来源:数据猿丨投递:巨杉数据库
随着商业银行业务的不断发展,关于影像的应用越来越多,如远程授权系统、客户身份证件影像系统、会计档案影像系统等等。建立基于影像平台的业务工作流系统,可提高业务效率,提高对客户的服务水平。
同时,金融行业理财代销产品销售录音录像系统(双录系统)、虚拟柜员机(VTM)系统等也对各种音频影像数据有更高的分布式管理与存储需求。
因此,银行开始综合运用了网络技术、图像处理技术、OCR识别技术、二维码识别技术、工作流技术、数据仓储技术等,建立业务影像管理平台,将对纸质文档的处理变成对电子文档的处理,完成一次图像采集、多次访问,实现对文档的影像获取、索引建立、自动传送、批转、检索、管理,使各系统间的数据资源共享访问,从而达到节省人力、降低成本、提高效率、防范风险的目标。
其中,分布式的内容/影像管理是整个系统的核心。此前,银行在ECM系统的发展历程如下图:
周期/节奏
周期:3个月
客户名称/所属分类
某股份制银行/大数据技术管理
任务/目标
项目通过使用巨杉数据库的分布式内容管理软件SequoiaCM以及ECM解决方案,实现该银行影像数据的在线化以及实时查询管理等功能,具体的目标如下:
●不再需要单独进行数据的备份与恢复,降低系统运行与维护的难度,减少灾备投入;
●满足监管部门对系统可靠性及数据保护的监管要求,实现PB级数据文件在给定的时间窗口内实现备份的基本要求;
●系统随时可以进行横向扩容;
●通过分布式架构降低近线数据存储的成本;
●对于“离线”归档的影像文件实现“自动化”和“实时”调阅。
面临挑战
企业管理的结构化数据只占信息总量的15%,而剩下85%的信息是非结构化数据,包括各种扫描件、电子文件、报告、公文、语音、视频、图片、传真件、信件等内容数据。因此在“大数据时代”,对于内容管理,企业有以下几点共性需求:
●需要实现数据的统一管理,并实现数据共享和数据流转;
●互联网时代,要应对数据总量的飞速增长;
●数据的量变带来了管理成本和使用成本的快速增长,须有效应对。
而对于银行,内容管理当前以影像数据为主,银行遇到的业务挑战主要有:
●单个文件小:影像文件一般每个文件大小约在2~3MB,经压缩后,大小约在几十K至几百K之间,平均大小是100K左右;
●总体数量大:文件数目众多,不同银行的规模,业务种类和上线的时间不同,单业务系统中往往会存放文件数量达到千万级或亿级;
●存储成本高:依据银行的规模与上线的时间,影像系统占用的存储空间以TB为计,最多甚至达到PB级别。同时,有些影像文件需要经常被访问,因此系统对于存储设备的I/O要求较高,造成影像平台系统存储成本居高不下,逐年递增;
●生命周期管理:影像文件根据业务不同,需要生命周期管理的能力。影像文件的查询调阅常常发生在3个月以内,一年以后的查询调阅的可能性非常低;
●备份时间长:针对影像平台中影像文件数据进行数据保护时,在数据量较大的情况下,对全部影像文件的扫描、定位、拷贝等操作的速度将会大大减慢;
●历史影像文件查询:因为存储成本较高,此前企业对于不常使用的影像文件会进行离线归档,使得历史影像文件的查询调阅需要大量的人力成本来完成,更无法保证“快速响应”;
●数据量逐年增加:随着金融业务的拓展、网点数目不断的增加、上线时间的变长,数据量呈显著上升的趋势。这导致生产系统容量需求不断增加,需要不断扩容。
实施过程/解决方案
针对银行的内容管理需求,巨杉数据库通过自主研发的分布式内容管理软件,SequoiaCM,为银行提供了整套新一代分布式架构的ECM企业内容管理解决方案,解决了该银行在影像/内容数据管理上遇到的挑战。
1.业务价值
基于SequoiaCM的分布式企业内容管理解决方案业务价值如下:
巨杉内容管理软件SequoiaCM(SequoiaContentManager),应用新一代的分布式处理技术和彻底的分布式架构,结合平台化的、可扩展的基础内容服务模块,完美解决了大中型企业存储、管理和使用海量非结构化数据所面临的技术挑战和痛点,是构建新一代ECM和替换传统ECM方案的最佳选择。
通过应用成熟的分布式存储、分布式处理以及大数据管理技术,巨杉公司的SequoiaCM使企业内容数据管理难题迎刃而解:
●企业全量内容在线随需使用
SequoiaCM使用通用的x86硬件,配以大容量的硬盘,解决了海量数据的廉价存储问题,让企业全量内容数据永远在线,各业务部门应用可随需使用,实时快速响应。
●有效应对信息量的爆炸性增长
SequoiaCM的分布式架构可以按需横向扩容,轻松实现PB级数据管理;支持在线扩容,无需中断业务,保障企业24小时连续运营。同时,数据可按策略实现分区管理,有效隔离,存放位置可控。
●内容、数据统一管理,简化运维
SequoiaCM内容数据和元数据在同一系统中存储和管理,实现了统一操作。避免了传统内容管理架构里,数据库与文件系统分开使用和管理情况,简化了运维,便于备份和容灾,始终保证数据的一致性和可用性。
●新业务应用快速迭代开发
SequoiaCM集成了基础内容服务模块,开发人员只需专注于业务逻辑开发,底层存储和管理全部交系统自动完成。SequoiaCM提供高并发的处理能力,支持企业多应用共管共享一套内容数据,保证数据版本的一致性。
支持标准 SQL 访问和JDBC、ODBC,企业应用开发人员无需额外学习成本,即可部署和应用分布式架构,实现业务应用的弹性和快速开发。
●适应不同企业的组织结构和作业方式
SequoiaCM提供了两种部署模式:集中式部署模式适应企业IT集中化管理;分布式多地部署模式适应跨地域多分支机构,数据需多地存储或本地缓存的企业使用模式。
●更低的TCO,更优的性价比
SequoiaCM使用通用的硬件,提供灵活的部署模式,实现统一的运维监控;同时提供了多维检索,热数据驻留内存等技术,系统保证数十毫秒级别的响应。TCO是传统ECM系统的1/3,且性能更优,系统弹性更大。
●数据安全,长效使用,符合监管要求
SequoiaCM默认提供分布式下的三副本管理模式,保证一份数据保存在三台以上的物理服务器中,数据保证长效、安全、可用。同时SequoiaCM还提供同城和异地容灾模式,轻松满足行业监管要求。
●实现生命周期管理
SequoiaCM可以作为数据的归档平台,提供与现有ECM系统的对接,实现数据的生命周期管理。
2.技术特点
SequoiaCM解决方案的主要技术特点如下:
分布式架构:SequoiaCM数据存储层和内容服务层均采用分布式架构,实现了弹性水平扩展以及高性能和高可用,灵活适应不同规模企业及不同作业方式的需要。
双引擎存储:SequoiaCM提供“元数据存储+内容文件存储”的双引擎机制,支持非结构内容数据与元数据的统一存储和管理。
双引擎同时在SequoiaCM的管理下运行,统管结构化数据和非结构化数据,为上层应用提供统一的数据操作,消除了传统ECM系统同时管理关系型数据库和文件系统所带来的管理负担。
灵活部署方式:SequoiaCM解决方案提供集中式部署与分布式/异地部署两种模式。其中,分布式多地域部署。可以把存储层集中部署,内容服务层跨地域部署,以配合业务的本地快速响应;也可以把存储层的部分节点以及内容服务模块作跨地域部署。
多样化内容服务:为帮助客户快速开发应用,SequoiaCM提供了基础的、通用的内容服务模块,用户只需关注业务逻辑的开发,随需调用平台的内容服务即可。
3.解决方案架构
解决方案的业务架构和技术架构图如下:
SequoiaCM系统业务架构
面对银行的内容管理业务,巨杉内容管理解决方案主要提供了三种具体的技术解决方案:
1)新一代分布式内容管理平台;对于之前为搭建专有内容管理平台的用户,巨杉通过SequoiaCM为其提供全新的新一代分布式内容管理平台。平台使用完全分布式的架构和PCserver硬件,实现分布式、高性能、实时和高可用的内容管理平台。
2)IBMCM平台的替换:IBMCM由于技术的老化以及技术和公司调整后的技术支持不到位,在新的大数据应用下容量、性能和成本等方面都面临了极大的挑战。巨杉通过SequoiaCM,将可以完全替换IBMCM平台,实现分布式内容存储、应用CMAPI平滑迁移以及内容数据生命周期管理。
3)内容数据归档:对于部分已经深度使用Filenet或Documentum等ECM平台的用户,业务应用绑定较深,短期内无法完全替换,但是又面临扩容、性能低下等问题的情况。
因此,巨杉通过SequoiaCM提供了内容数据的归档平台,将庞大的历史内容数据转入SequoiaCM集群中进行归档,将与业务绑定的原有ECM应用负担减轻。同时,归档的内容数据还可以实现实时的历史内容数据管理和查询,保证全量的内容数据实时在线。
4.实施周期规划
SequoiaCM平台项目阶段规划
巨杉SequoiaCM实施交付规划
结果/效果总结
部署和使用SequoiaCM的效果如下:
●现有业务系统实现零改造,无缝接入巨杉分布式内容管理平台
●新建系统直接接入巨杉内容平台
●全行影像内容数据逐步迁移到新平台,最终全量数据在线化管理
●历史内容数据(10+亿记录)快速归档及实时并发查询
●当前数据量超过500TB,未来规划超过2PB
●目前有近20个项目接入该平台,其中4个为实时作业系统
●平台目前已经为行方节省了每年1500人/天的成本投入
●对于归档数据的查询,已经从此前的查询需要超过10个工作日,达到了实时返回,在柜面的秒级的数据结果展现
●除了基础的存储、读写和查询功能,平台还引入了生命周期管理、版本管理、检入检出、数据高可用等企业级功能
企业介绍:
巨杉数据库公司,专注于分布式数据管理软件的研发和技术解决方案提供,技术团队服务范围覆盖全国。巨杉公司核心产品包括:
新一代分布式数据库——SequoiaDB巨杉数据库
分布式企业内容管理软件——SequoiaCM巨杉内容管理软件
巨杉公司致力于大数据的管理、高性能数据联机交互应用,以及非结构化数据管理及应用。为用户提供海量数据的存储管理、高并发实时处理、高吞吐量批处理、分布式计算的统计分析、以及实时流处理等一系列企业级数据处理解决方案。
巨杉帮助用户构建或优化大数据平台,实现跨系统的、多数据源的数据融合、提炼加工及联机交互的数据应用,帮助客户快速落地大数据创新业务。
巨杉目前已经规模进入金融、政府等主要行业,拥有数十家企业级用户,其中包括10家“世界500强”企业用户,国内新一代分布式数据库市场份额第一。巨杉在企业级应用场景与解决方案持续领先,中国的用户数量和收入超过硅谷分布式数据库厂商总和。
公司得到硅谷顶级投资机构认可,是目前国内获得投融资最多的分布式数据库厂商。
欢迎更多大数据企业、大数据爱好者投稿数据猿,来稿请直接投递至: tougao@datayuan.cn
来源:数据猿
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 分布式锁原理——redis分布式锁,zookeeper分布式锁
- 漫谈分布式系统(十):初探分布式事务
- 漫谈分布式系统(十):初探分布式事务
- 漫谈分布式系统(二十三):分布式数据仓库
- 分布式系统中的BASE 和 ACID、幂等性、分布式锁、分布式事务与异步消息处理
- 分布式ID系列(4)——Redis集群实现的分布式ID适合做分布式ID吗
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
A Byte of Python
Swaroop C H / Lulu Marketplace / 2008-10-1 / USD 27.98
'A Byte of Python' is a book on programming using the Python language. It serves as a tutorial or guide to the Python language for a beginner audience. If all you know about computers is how to save t......一起来看看 《A Byte of Python》 这本书的介绍吧!