本帖最后由 乐小维 于 2019-2-28 09:59 编辑
FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级! 项目背景 随着信息化的逐步深入,企业业务运营活动对IT的依赖程度越来越高,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足安全生产的实际需要,IT运维必须向自动化、全面化、流程化模式转变,构建一站式监控平台,则成为企业 IT 架构升级、自动化转型的战略刚需。
相对其他行业来说,银行行业因为网络环境、系统软件复杂,资源整合程度高,系统数据安全级别高,权限管理复杂等原因,对技术的可靠性、稳定性和成熟性有着更高的要求。
客户简介 某银行是一家以国有股本为主、股权多元化的地方性股份制商业银行,引入马来西亚某银行作为境外战略投资合作伙伴。在上海证券交易所挂牌上市,成为某省首家上市银行、全国第8家A股上市城市商业银行。该银行致力于为广大小微企业客户提供优质高效的金融服务,利用自身优势,加强产品创新和“本土化”改造,开发了一批“特色化、标准化、本土化”产品。目前,旗下“财富金翼”小微企业融资品牌包括“壮大贷”、“成长贷”、“科创贷”、“科票通”、“创业贷”、“惠农贷”、“易采贷”等10余种产品,为不同发展阶段的小微企业融资提供多种金融方案以及一站式金融服务,不遗余力支持企业成长发展。
项目背景 该银行信息化建设蓬勃开展,IT规模逐年扩大,相应的故障次数也逐年增加。而在采用有效的管理方式之前,管理相关部门仍然采用传统的、分散、不统一的手工管理方式,且无专业团队对现有IT系统软硬件进行统一管理维护,建设、运行、支撑职责不分,缺乏有效的管理和运行监视手段,缺乏有效的针对设备/设施的资产管理。系统配套的管理手段的创建已经落后于相关建设的步伐,这样就造成了管理模式跟不上系统建设的工作矛盾。 该银行现有的生产监控系统于2011年开发完成,主要是基于IBM商业产品Tivoli,已使用7年时间。需在其基础上衍生基础设施纳控、集中告警、巡检报表等。为解决此问题,需对基础监控平台系统进行升级改造。一方面可以解决目前该银行监控系统存在的问题,另一方面也可以提高运维工作效率,降低运行风险。
解决方案 乐维监控结合该银行发展的现状及发展需求,在进行需求的前期调研和现场调研后,针对性的制定设计了一套完整的实施方案,帮助其构建一个安全、实用、可持续发展的智能监控管理平台。 通过改造,对银行所有软硬件设备进行管理,综合展现运维管理数据和相关统计信息,以一个综合展现平台的方式展现所有关键管理数据,通过灵活的告警设备,精确的告警检测,多样的告警推送方式,简单的告警经验积累方式,实现用户有效及时得到故障信息。提供快速故障定位,故障分析,最终实现IT运维管理要求: 1.基础监控平台需完成生产系统服务器、操作系统、数据库、中间件、存储、网络设备等的实时监控,确保能够在故障发生时提供及时的告警和操作; 2.需有比较美观的展示界面和人性化的UI,能清晰方便的反映出企业纳控的IT资产运行状态及相关信息; 3.在完成对各项基础监控项的同时,需定制开发针对银行的特殊要求,监控项之间能配置关联关系,并能够生成性能分析和故障报告; 4.基础监控平台需将告警信息接入统一展示界面(与现有系统接入方式保持一致)。 5.需具备智能巡检功能,设置巡检周期,自动生成巡检报表,对重点关注指标进行检查并汇总发至指定人员邮箱,以供分析决策。
实施过程 针对该银行所面临的问题,乐维监控基于开源Zabbix(最新版本4.0)深度二次开发,利用开源技术及自身产品的高可用、可伸缩、易维护等特性,对银行的IT资产进行了梳理纳控,建设优化的处理。
产品逻辑图谱
对象统一纳控,集中管理 1. 主机监控:RedHat、Windows、AIX、HMC - 针对监控AIX小机LPAR信息、JFS文件系统、errpt日志信息、LVM信息和Linux不一样
- AIX的HMC数据资源的管理
- 防火墙状态和应用服务监控
2. 网络设备监控:Cisco、H3C、华为、F5、迈普、山石、深信服 - F5的层级划分、主备状态、配置同步、活跃连接数、pool
- SDN-spine、SDN-leaf监控
- 网络设备的syslog日志对接
- 网络设备日常巡检相关报表展示
- 链路探测的不同方式(NQA、SQA),登录交互探测
3. 虚拟化监控:VMWARE - 监控Clusters、Datacenters、Datastores、Hypervisors、VM
- vCenter平台告警对接
- Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态
- 模块与监控平台集成
- 消息与队列处理,对接
4. 数据库监控:Oracle、DB2、Mysql、Redis - SQL排名-时间
- redo log
- 数据库dataguard状态、日志同步情况
5. 中间件监控:Weblogic、Tomcat、Nginx、RabbitMQ、ZooKeeper、WebSphere - 接口对接
- 控制台数据采集
- 最大连接数、当前连接数
- 健康状态
- 线程池状态
- l server状态
6. 存储监控:EMC VNX、EMC VMAX、Netapp
7. 安全设备监控
标签化管理,对象分组,权限配置,为数据安全保驾护航 1. 支持标签化管理,方便对海量用户信息进行搜索、分类、整理记录。 2. 对象分组,可进行分类、排序、检索、批量删除。 3. 用户管理,支持登录名、手机、微信、密码、角色、有效期及是否能登录Zabbix等管理功能,支持对用户的角色授权的功能。 4. 权限配置,统计报表、首页、告警、监控对象等各个功能权限设置,可按照管理员级别进行分类设置。
秒级智能告警平台,内置知识库,使运维有迹可循 - 自定义告警策略(告警分级、收敛),故障快照,动态基线,快速对接微信客户端、邮件、短信等多种工具,结合专家智库对故障高效处理,保障业务系统长期平稳运行。
- 告警关联专家智库,运维人员将故障处理方式记录到专家智库,这些信息将通过算法自动匹配到告警列表,为运维人员下次处理类似告警提供参考依据,支持对专家智库信息进行点赞和点踩,专家智库的匹配算法会根据用户点赞和点踩的行为进行智能匹配告警。
智能运维巡检报表,定时邮件发送 - 支持自定义设置巡检周期、时间点对重点关注指标(包括但不限于CPU使用率、内存使用率、接口接收流量、借口发送流量、风扇转速、机房温度、机房备电灯等)展开日常巡检工作, 生成报表汇总发至指定人员邮箱,节约运维工程师人工巡检时间,提升运维效率。
终端UI界面全新升级,灵活切换主题皮肤 - 结合客户VI,对界面整体改良升级,并制定出标准版和暗黑版两款个性化皮肤,供自行选择切换,适用大多数应用场景,满足客户需求定制。
标准版&暗黑版
客户收益 1. 通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。 2. 从项目、用户、角色等多个维度实施权限配置管理,为系统安全性和保密性提供保障。 3. 高可用的技术架构和灵活的调度能力,可覆盖并应用于绝大多数业务场景,持续赋能。 4. 智能高效的运维管理体系,帮助客户从IT管理的层面加快自动化进程。
|