背景
近年来, 光大银行借助云计算技术,从总分行一体化视角出发,进行了基础设施大集中云化建设, 完成了总分行开发测试云和总分行生产云的建设和推广工作。加强了总行对全行基础设施资源的整体管控能力,提升了资源交付效率,完成了建立分行系统集中灾备的目标,同时也缓解了分行科技人力资源不足的问题。
为了实现 全行资源集中供给、 资源 统一管理、分行应用系统集中运营的目标。 早在 2 015 年光大银行就基于 BMC产品对总分行开发测试资源池进行了 云 管理 平台 试点开发,初步完成了 VMware资源池的统一纳管 和基础自服务功能。
随着近年来云计算相关技术的快速更新迭代,光大银行科技部也在快速对各种新技术进行应用,包括容器, SDN,分布式存储,数据库PaaS等,同时随着软件开发技术和方法论的升级,devops敏捷开发正在成为光大的主流开发模式,与此相对应的微服务架构,servicemesh也逐步成为新一代的应用架构首选。老一代的云管理平台在新技术,新需求,新变化,新方法的不断冲击下,也越来越难以跟上光大科技的快速发展要求,这体现在:
ü 基于 BMC的老一代云管理平台扩展性差,维护成本高,对新需求的响应速度慢。由于架构老旧,老云管平台在对接新的技术平台,以及新的敏捷需求时,往往要花费大笔的定制化开发费用,耗时几个月才能完成几个功能点的开发,远远不能跟上行里的需求更新。
ü 缺乏多租户,配额,计费及多维度统计分析能力,对资源整体使用状态难以进行精细化管理。
ü 管理平台与运维平台相对独立,维护工作需要在多个平台间进行切换和协作,效率低下,且易出现误操作。
ü 对 F5,NAS,以及PaaS平台的资源操作未实现自动化,仍需要大量的人工判断和手工操作。
ü 资源申请和审批流程过于简单,且需要定制化开发,无法满足总分行对于不同业务应用间差异化的资源交付流程。
痛点
老的云管理平台除了由于架构上的缺陷导致的上述问题外,随着行里对 IT管理精细化,标准化,自动化的要求不断提高,老平台在面对新的业务需求挑战的时候,明显显得力不从心:
Ø 异构基础架构统一纳管能力弱: 老一代云管平台对 VMware单一环境的管理已达到行里要求,然而,光大运维中心还统一维护了多套不同规模的资源池环境,分为总行生产、总行开发、分行开发和生产等,同时各分行还有二级资源池。由于各资源池建设的技术路线不统一,目前尚未实现对这些资源池的统一纳管工作。目前仅总行开发环境就存在多套资源池,单个资源池的虚拟机规模达到了3 000 + ,目前有大量虚拟机无法追踪负责人,也无法有效得知是否存在资源浪费、资源使用是否合理的情况,导致资源的使用状态梳理和回收工作受到较大挑战。
Ø 精细化管理能力不足: 在精细化的流程管理方面,根据总行和分行的不同,各自在进行资源申请时需要进行的审批流程也不同,需要差异对待;同时总行的管控较为严格,常规的申请、变更、克隆、删除等不同操作,均需要有不同的审批流程;所以不同的组织、不同的对象、不同的资源、不同的操作均需要做到单独配置审批流程,直接造成现有平台运营难度和开发成本增加。此外,资源交付到业务人员后,还需要针对人员对资源所能进行的操作进行细颗粒度限制,尽量避免由于权限问题带来的风险。针对特定场景,有时需要将资源进行临时授权给运维人员的操作,也需要做到权限可控。
Ø 个性化服务供给能力亟需提高: 全国 3 7 家分行都存在向总行开发环境进行资源申请的需求,不同业务系统对于资源的需求不同,需要做到资源的个性化交付。同时光大开发测试环境支撑了上百个业务系统,不同的业务系统在不同环境下的资源需求也各式各样,同样需要针对业务部门提供个性化的服务目录以便快速选择。
Ø 平台跨部门协作能力需要提高: 光大现有业务部门的资源申请大多为组合环境需求而非单一的虚拟机、存储或网络需求。比如需要针对某个业务系统申请一套环境,包括:虚拟机、中间件、数据库、 NAS存储、F 5 负载均衡策略等。此类型申请涉及到系统管理员、存储管理员、网络管理员同时参与进行,不同的管理员所使用的管理方法、命名规范、申请规范存在较大差异,而且配合中可能存在资源供给先后顺序的影响。所以老平台在跨部门协同方面能力的欠缺直接导致无法实现真正一键申请、一键部署的自动化执行;在涉及到跨部门的信息确认和配置协同时,大部分环节需要频繁沟通和人工介入,费时费力且沟通成本较高。
新平台需要能实现一键申请,一键部署的同时,又要兼顾多职能部门的团队协作,保障资源获取和交付的合规。以实现标准化、规范化的资源申请和自动化的交付过程,提高交付效率。
Ø 常规运维操作如资源交付不标准,依旧依赖手工操作: 光大目前提供了:虚拟机(多种操作系统版本)、中间件(多个 weblogic版本)、数据库(多个oracle版本)、F 5 负载均衡策略、 NAS存储、IP地址分配等多种资源类型。部分资源交付未完全实现自动化和标准化。比如oracle和weblogic等软件目前依旧是半自动方式提供,依旧有大量手工进行模板预配置的工作。因此需要将此类运维工作通过自动化方式进行交付,屏蔽手工操作可能会带来的资源交付不标准以及出错率。
Ø 运维过程缺乏安全机制,存在较多隐患: 目前光大银行不同环境的安全基线要求不同,开发测试环境并未与堡垒机集成,缺乏资源授权、命令记录、操作录屏功能,资源运维存在较多风险,需要在资源维护过程中,建立 高效、安全、可控的 资源维护 机制 。
解决方案
结合光大银行现有 IT技术现状,遵循集团总部战略规划,利用光大银行数字化转型的契机,对现有云计算管理平台进行全面重构。 作为云计算体系中的运营管理中枢:在底层资源与上层应用中搭建一套可视化微服务架构 ——向下提供各类IT资源及能力的通道,向上提供各种框架、审批流程自定义、应用编排、作业编排、IT能力编排、计量计费引擎、自定义报表等,将上述能力开放出来。核心目的是为企业数据中心赋能,让最了解企业内部现状的用户,基于该平台构建最符合本企业的实际使用场景,让云管平台成为“科技业务”的“入口”,帮助加快企业IT部门职能转型。
“企业IT服务运营管理中枢”架构突破“传统设施即服务”的观念,以应用为核心,在技术层面通过元数据定义和跨云的复杂作业平台实现对不同资源池的统一编排。 在运维方面提供任何 IT即服务的思维导向,依托“建通道、提供架构、输出能力”的产品形态,解决多职能部门需求。真正实现以业务为中心,面向服务,侧重资源和应用治理,加快业务创新。实现广泛的IaaS、PaaS各类应用服务,支持广泛的异构资源。基于元数据定义服务,动态生成服务目录,快速响应;以服务形式交付IT设备和资源等整体产品架构的升级。
与传统云管相比, “企业IT服务运营管理中枢”将充分实现应对上百种资源类型、上千种环境和版本种类、上万种配置参数的组合,避免编排和调度的复杂性成几何级增长的技术困难。提供跨云环境下的复杂作业、带宽、容错、连通性的保障,以及作业依赖关系的精确执行和回滚机制。 解决在复杂的周边系统和环境差异下,系统级的数据一致性和系统可用性。
围绕任何 IT即服务,做好交付和治理两件核心的事情 。以应用和业务为视角的情况下, IT的交付包括:资源、环境、应用、能力、安全、备份、报表;管控指对角色、权限、流程、合规、安全等方面的控制;运营指掌握上云的资源统计、路径、权限、用途、效果、如何优化等。推动光大银行IT云化能力从前期的资源建设向能力建设转型。最终实现: 用更高级的自动化,更强大的智能监控分析,用更少的人,管理更多的设备,更快速响应业务端的变化,同时实现更高的 ROI ——以业务价值为导向驱动IT建设的目标。
基于新一代云管理平台打造的 “企业IT服务运营管理中枢”由一个中枢+六个功能模块组成,组件化解耦,各司其职,分步分期建设。
通用云管理平台, 以平台级微服务架构构建的企业异构基础架构统 ——管理平台,帮助企业以业务视角实现混合云的可视化管理。
应用集群编排与配置管理平台, 将单一或多个应用以不同的业务或应用场景可视化的编排为应用集群,帮助企业 IT实现一键自动化的跨云部署。
分布式作业管理与编排平台, 以可视化方式编排,调度各类脚本的分布式执行,帮助企业 IT实现标准化、自动化的运维操作。
主动式配置管理数据库, 企业云化数据中心智能化运营管理数据心脏,主动式 IT资源动态配置信息处理中心,帮助企业以业务视角实时获取复杂资源的依赖关系。
IT能力组合与调度平台, 将企业 IT各种RestFulAPI能力可视化的编排为复杂的组合服务,满足不同业务场景的复杂处理需求,帮助企业IT业务处理流程标准化、自动化。
企业数据中心 IT态势感知平台, 以 CMDB、监控及日志数据为基础,通过大数据和AI对IT数据中心的整体运行状态和异常进行智能分析及预测,辅之以分布式作业管理与编排平台的自动化运维特性,实现IT云化数据中心的智能化、数字化运营。
光大银行企业 IT服务运营管理中枢项目一期建设目标及范围如下:
Ø 搭建统一云服务平台,完成总行、分行开发测试云资源统一纳管
一期的目标是完成包含 V Mware虚拟化 、 F 5 负载均衡、 NAS存储设备的多资源池纳管,以及对纳管的存量数据做分配责任人的梳理工作。实现用户对资源管理的自动化及自服务,实现用户对服务实例的生命周期管理,租期管理等操作,进一步提高资源提供效率,减少运维部门工作压力,降低操作风险。初步实现开发测试环境资源池的 统一管理、统一监控、统一运维 能力 的统一云服务平台。 建立自服务化的交付模式,实现从传统 IT资源交付模式向IT云化服务模式的转型。最终扩展到其他基础架构环境,实现光大银行整体IT基础架构资源的统一云化管理。
Ø 以服务目录 +自服务方式对业务用户提供资源申请,统一资源供给,加快IT服务交付速度。
通过元数据定义方式提供虚拟机申请、虚拟机变更、 NetApp NAS服务、F 5 负载均衡策略申请、 WebLogic应用交付、Oracle数据库交付、虚拟机+存储+应用+数据库的蓝图交付等服务目录。业务用户申请资源时,统一通过平台的进行申请、审批、自动化交付,规范化资源申请,加快资源交付的速度。同时平台具备低侵入度的扩展性,确保后续能够灵活快速的接入更多IT服务资源。
Ø 自定义审批流程,精细化运营,满足合规性要求
针对光大总行、分行甚至不同部门将服务申请、服务变更、服务删除、服务操作关联不同的流程(梳理光大中行、分行针对不同资源的审批流程),同时实现不同业务、分行针对相同的服务目录执行不同的审批流程,真正实现审批流程自定义、服务请求与审批流程关联的自定义。
Ø 可视化、自动化的跨基础架构的应用编排
摒弃以传统的镜像模板方式提供复杂应用环境的做法,通过可视化、自动化、可配置方式实现复杂应用环境的部署和配置。一套服务目录下可灵活实现虚拟机、 F 5 负载均衡、 NAS存储、Oracle、WebLogic、 MySQL 、Tomcat的一键式交付,且复杂环境配置组合能够灵活、快速的进行调整,满足不同应用的资源需求。
Ø 自动化运维 +安全运维能力建设,实现对操作系统进行文件下发、命令执行等自动化运维操作,以及通过集成堡垒机实现安全运维。
通过平台自带的自动化运维模块、应用编排模块、堡垒机模块,为光大银行建立如下自动化能力:
l VMware虚拟机 资源 、网络策略下发( F 5 负载均衡策略)、存储资源( NetApp NAS) 自动化交付
l 应用自动化部署 +定制化配置,可以自动化部署各应用中间件,减少管理员的手动部署操作。
l 针对虚拟机( Windows、 Linux 操作系统)实现 批量脚本下发和命令执行 。比如实现修改用户密码、同步时间或其他运维类操作。
l 堡垒机集成。实现管理员在云管平台中可快速将虚拟机录入至堡垒机平台并完成对普通用户的授权操作。普通用户即可通过堡垒机对资源进行运维操作。
收益
Ø 实现了全行开发测试资源统一管理与供给、集中运营、全行 IT成本精细化管理 ,有效节省人力(运维、管理)成本 40 %。
Ø 提高光大对云资源的自助和统一管理能力,规范化的流程管理(实现灵活的服务申请与审批配置,针对总行分行建立不同的流程),提升光大 5 0 %资源管理能力
Ø 建立自动化引擎,自动化流程及自动化部署,避免人工出错,提升运维工作效率以及光大业务敏捷性 40 %。
Ø 多维个性化统计报表功能及易操作设计,通过资源运营报表和容量视图,迅速洞察 IT 资源的使用状况和未来容量趋势,提升 50 %管理效率
Ø 自助式服务及运维工具,提升用户使用体验
Ø 通过数据 +权限+菜单控制有效避免用户及管理员对平台的越权行为,并通过日志审计有效监督用户使用平台的行为。有效提升系统安全性。
以上所述就是小编给大家介绍的《中国光大银行 – IT服务运营中枢》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 光大银行彭晓:数据中心的智能化运维探索
- 走近监控系统的神经中枢
- 泰康保险集团 – IT服务运营中枢
- 东风商用车 – IT服务运营中枢一期
- 直接作用于IT运营“管理中枢”的解决方案:提供端到端服务交付和治理能力,助力企业实现“Six More”
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。