引入“微运维”构建一体化信息监控管理平台

2018-03-20 16:26:15 电力信息与通信技术  点击量: 评论 (0)
为保障国网客服中心对外提供7×24 h不间断95598优质服务,中心建立了信息化运维“安调运检”体系,运维团队各项工作协调运转。为了进一步提高运维效率,中心借鉴微服务理念,引入“微运维”工具并与传统的监控平台相融合,打造集约一体化信息监控管理平台,有效地解决因软硬件种类多、技术

 0 引言

国网客服中心(以下简称中心)是国家电网公司集中供电服务业务执行单位和总部营销决策的支撑机构,负责95598服务的集中建设与运营,服务地域范围覆盖26个省(直辖市、自治区),是世界上服务人工最多、规模最大的电力客户服务中心,下设南、北2个分中心[1]。中心兼具呼叫中心及电力行业的属性,是技术密集型、知识密集型客服中心,具有业务连续性要求高、社会影响大、话务量高等特点,因此,安全可靠的信息系统是中心对外提供优质服务的关键支撑。中心在全国电力行业首次设计了95598一体化服务平台信息系统群结构,采用“双基地、双平台、双局向、双链路”模式,为保证7×24 h服务的连续性奠定基础。

此外,中心信息系统运维以“安调运检”体系为基础,结合中心实际,加大对座席现场的支撑力度,加强运行监控及故障恢复效率。中心信息系统运维与国家电网公司系统内其他单位面临同样的困难[2-3],一是软硬件种类繁多、技术接口繁杂;二是监控手段不统一、监控工具分散,无法“集中监控、集中管理”,影响系统监控与处置效率。中心借鉴“微服务”应用拆分、敏捷部署及运维集约化理念[4-5],创新性提出“微运维”概念。每一个“微运维”关注一项个性化软件或硬件的自动化运维,代表着一个小的运维能力。同时,将“微运维”与传统的监控资源有机结合,打造了运维一体化管理平台,有助于提升运维质量和运维效率[6-8]

 1 信息系统运维现状及存在的问题

1.1 信息系统运维现状

95598呼叫平台系统承载南方分中心服务的14家省(市)公司的95598电话业务,是国家电网公司提供优质服务的重要入口。

95598呼叫平台系统运维工作涵盖较广,包括机房环境、网络安全、主机存储、数据库、中间件、呼叫平台服务等。涉及的软硬件种类繁多、品牌繁杂、数量庞大且软硬件之间技术接口不统一,如数据库有Oracle、MySQL、SQLserver,主机硬件有小机、PC、刀片、工控机、专用服务器等,平台硬件有OXE、SBC,平台软件有软电话、genesys平台软件、录音系统、语音分析、报表集成服务等。

信息系统运维的日常工作是监控异常并进行快速处置恢复[9-11]。目前主要采用传统成熟的监控工具,如通过动环监控系统监控机房温湿度、电量电压、UPS等信息,通过北塔、hostmonitor监控整个分中心网络运行状况,通过中心统一开发的核心监控与预警系统监控分中心各部门话务和业务情况及呼叫平台核心组件的运行状态[12-14]。信息系统运维工作基于以上分散的监控工具,缺乏一个一体化监控平台,进行全方面、全覆盖的“自动监控、主动运维”。呼叫平台系统个性化软硬件较多,技术接口不统一,无法做到采用统一的技术规范实现所有的系统“一键式自动运维”。此外,因中心业务不断拓展,信息系统开发建设速度快也需要不断开发出新的运维工具[15-17]。在异常处置方面,主要以人工处置为主,处置效果很大程度上依赖于处理人的专业技能。

1.2 存在的问题

在目前的运维工作中,监控处置动作不能集约式一体化管理,给运维工作带来很多难题。

1)造成了时间、人员、设备等资源的浪费。个别软硬件因技术接口不统一,需要独立开发出个性化的自动运维工具,造成设备资源的重复投入;运维工具分散、繁多,可能分散到各个运维专业组使用,容易造成人员冗余及不合理利用,同时兼顾多个监控工具也会造成时间和精力的浪费。

2)增加了系统风险。人工处置会因人员误操作导致不可预估的风险,处置效果依赖于某个运维人员的技能,若该人员离职,则会造成核心技术与重要经验的流失,加剧了系统风险。

 2 集约一体化信息监控管理平台的构建

2.1 “微运维”的提出和典型“微运维”工具

微服务架构在系统开发中得到越来越多的关注,可将一个大型复杂的应用和服务分解成更小的、松散耦合的一个个微服务,每个微服务代表一个小的业务能力,便于软件应用的升级和扩展。将微服务这种应用拆分、敏捷部署的理念引入到信息系统运维工作中,提出了“微运维”的概念,针对个别无法实现统一监控的软硬件,独立开发个性化的微运维工具,实现自动监控、自动处置。国网客服中心南方分中心在运维过程中,针对呼叫平台重要组件及服务的监控处置开发了“微运维”工具。

2.1.1 Weblogic中间件的自动监控与处置

Weblogic是基于JavaEE架构的中间件,其中部署了95598呼叫平台的重要集成服务。前期Weblogic故障的发现与处置主要依赖人工完成,Weblogic中间件在宕掉或假死的情况下靠人工手动拉起,拉起时间过长,存在操作不规范的风险,影响业务正常运营。针对此问题,南方分中心组织开发了Weblogic中间件的自动监控与处置“微运维”工具。

图1 weblogic中间件的自动监控与处置“微运维”工具架构Fig.1 Architecture of Weblogic middleware automatic monitoring and "micro-operation" tool

图2 CTI一体化重启“微运维”工具架构Fig.2 Architecture of CTI integrated restarting the 'micro-operation' tool

该工具架构如图1所示,采用Java、shell、linux-OS技术耦合,包含监护工程、处理工程、记录工程、审计工程、配置工程,将监护处理操作在基层耦合,做到维护管理灵活独立,在Weblogic中间件宕掉或假死时可自动检测,快速拉起。在2014年下半年使用该自动化运维工具后,Weblogic中间件故障监测判断平均用时由使用前平均20 min下降到60 s,平均处理用时由平均15 min下降到35 s,大大提高了运维效率,节省了时间与人力资源,降低了系统与业务风险。

2.1.2 CTI一体化重启

计算机电话集成(Computer Telecommunication Integration,CTI)服务能自动处理来电中的信令信息,并建立电话连接,是95598呼叫平台的重要服务。CTI服务运维工作一直是困扰南方分中心的难题,CTI服务的启动、停止有严格的顺序要求,且CTI服务较多,人为操作风险较大。为解决该问题,南方分中心开发了CTI一体化重启“微运维”工具,架构如图2所示。

这一工具将常态重复的工作进行自动化,由多人操作、交互确认变成了一人操作、内部自校验,降低了时间与人力成本;把多个服务之间逻辑关系的处理进行固化,降低了操作风险;避免了业务主机启停顺序紊乱的系统风险。使用CTI一体化重启工具前后,时间及人力成本的变化见表1所列。

表1 使用CTI一体化重启工具前后时间及人力成本上的变化Tab.1 The time and labor costs change after using CTI integrated restarting tool

2.2 一体化管理平台的构建

将针对个性化软硬件运自动维、代表不同运维能力的“微运维”工具与传统的监控资源结合,构建运维一体化管理平台,实现了集中监控、集中管理,弥补了由于接口规范不统一带来的分散式繁杂运维,有助于提升运维质量和运维效率。一体化监控管理平台架构如图3所示,包括技术支撑、平台支撑和功能支撑3个模块。

图3 一体化监控管理平台架构Fig.3 Integrated information monitoring and management platform architecture

1)技术支撑:一体化管理平台包含传统运维工具和“微运维”工具2个模块。对于传统的运维监控手段,使用成熟的运维监控平台或者传统技术开发实现,通过通用技术接口纳入一体化监控管理平台;对于“微运维”工具,采用与之对应的接口技术,实现“微运维”平台/工具的开发,通过专门的技术接口纳入一体化监控管理平台。

2)平台支撑:包含传统成熟的运维工具/平台和因技术接口个性化、传统成熟运维工具无法统一支撑的“微运维”工具/平台。随着业务范围的扩大,信息系统不断开发建设,支撑对应系统自动监控运维的“微运维”工具可基于该一体化监控管理平台不断升级扩展。

3)功能支撑:①集中监控与告警:一体化监控管理平台融合了“微运维“平台/工具与传统运维平台/工具,进行集中监控与告警,实现单个或多个故障的敏捷发现;②集中调配:一体化监控平台可快速发现单个或集中故障,能够通过集中调配平台去调度组织人员、技术、设备及时到位,实现快速处置;③进度管理:通过对故障以及处置进度的管控,实现进程控制、影响控制并督促监督处置过程,可对故障信息传递、影响范围确定、处置进度跟踪进行高效管理;④报表分析:通过故障相关数据、处置相关信息进行多维度的分析(时间、范围、人员、效果、风险等)与总结,有助于杜绝故障发生、提高处置效率。

一体化监控管理平台的构建,实现了高效管控、敏捷运维,较好地解决了软硬件种类繁多、接口规范不统一的监控难题,且具有可扩展性,能够适应不断上线的、新系统的运维工作,大大提高运维效率,有力保障业务的正常运转。

 3 结语

为满足不同接口规范的软硬件、不断开发建设的系统的监控需求,通过借鉴微服务应用拆分、敏捷部署的理念,文中引入了微运维的思想,提出了构建一体化监控管理平台的方案,将一个个个性化的微运维工具融入到一体化运维管理平台上,可有效解决运维软硬件数量庞大、运维工具繁多的问题,保证信息系统的安全稳定运行。

大云网官方微信售电那点事儿

责任编辑:售电衡衡

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞