云和大数据时代的高效运维管理之道

2017-12-12 19:58:55 比特网  点击量: 评论 (0)
十二月初冬的寒冷抵挡不住78CIO圈子的热情,12月9日,刚过“大雪”节气没几天,78CIO如期举办第9期精品沙龙活动。聚焦实践、分享干货是78CIO线下沙龙活动的宗旨。

    本次沙龙充分体现了圈子共建、价值共享的原则,其中爱心人寿信息总监刘东城和国美云产品支撑中心副总监陈焱两位主讲人都是圈子成员积极推荐。另外一位主讲人OneAPM副总裁张楠坤也是圈子的积极参与者和贡献者。整个活动内容融合了金融行业、零售行业的云化实践案例,同时,从运维监控角度阐述了如何把高效运维和业务运营结合起来,提升用户满意度指标。

云和大数据时代的高效运维管理之道

图:沙龙活动合影

    另外,到场参会的CIO有:中国人民银行清算中心一级专家尼米智、东兴证券信息总监董国兴、恒昌利通信息安全负责人贺岩、映客直播赵东林、大爱投资控股集团信息技术总监李胜军、北京源创云网络IT负责人孙吉东、用友财务软件公司IT负责人于海超、北京能源集团乐多港IT负责人梁新刚、中国航天科工一院总师林闻晓、掌众金服信息总监戚德生、探路者集团信息总监张航、长城人寿IT总监施洪琦、北京首钢实业集团信息部部长庞介飞、泰康燕园康复医院信息科主任王江龙、天九幸福控股集团常务副总经理敬国宏、大童保险副总裁张宏坤、宜信公司IT部基础服务负责人方建国、中国药品生物制品检定所(中检院)IT负责人谢丽丽、四维图新IT总监邓天辉、尚科办公社区IT负责人马曦冉、飞鹤集团CIO崔启佳、独立CIO陈其伟等共计24位企业IT负责人和业内资深人士到场参与交流,并共进晚餐。

云和大数据时代的高效运维管理之道

沙龙活动现场CIO们认真听讲

沙龙活动内容要硬

    第一个主讲人是爱心人寿信息技术总监刘东城,作为一个在保险行业从业34年的IT老兵,刘东城有着丰富的行业经验和IT管理实践经验。2015年9月参加筹备爱心人寿,以云计算为基础搭建了爱心人寿的全套保险应用系统。

云和大数据时代的高效运维管理之道

图:爱心人寿信息技术总监刘东城

    现场,刘东城从前期思考、着手云化、云化落地、使用情况以及总结感悟等五个方面进行了详细的阐述,并讲述了在云化实践过程中踩到的许多坑,以及如何与供应商协作解决等等。他提到,在前期梦想着采用云平台搭建全部的保险应用系统。在如何上云的前期思考过程中,重点介绍了机房运维的困难,传统模式下服务器设备购置慢,应用系统运维复杂,以及系统安全投入大等四个要素。

    在着手云化准备时,率先开始做云资源的仔细调研工作,包括对现有的提供服务商阿里、腾讯、中金等进行全面细致的了解,从了解普通的云平台到金融云,从技术平台、服务到价格方面进行了全面的调研。

    对于云计算所需要的人才,必须要确保关键岗位到位。因此,招聘熟悉机房网络的专业人员,特别要对云平台感兴趣并有意探索使用者优先选择。全部使用云平台方便简单,但对自我的新技术掌控也是挑战。

    云化彻不彻底,能不能起到云的效果,还要看关键系统的云化。爱心人寿通过和主要系统开发厂商沟通,请他们投入人力及时间,对应用系统进行改造,使系统从使用Oralce数据库转移到mysql数据库,系统从结构上与云平台相适应。

    在云化落地和部署阶段,结合金融云的技术应用特点,确定了三个关键阶段:1、租用应用服务器、数据库一体机。2、快速搭建线上线下各个应用系统40多个;3、投入正常使用并异地备份。

    具体到金融云的运维,涉及到了系统运维、应用运维、数据库运维、运维研发、运维安全、运维系统等六大核心内容,从而确保了金融云从基础架构、日常运维等多方面保障业务连续性。在安全管理方面,刘东城特别提到,作为“互联网+”重要一环的云计算,实际上云计算能提供远高于本地数据中心的高可用性、数据安全、隐私保护以及异地数据灾备服务,确保互联网服务的运营和数据安全万无一失,其中包括平台安全和业务安全两大核心。

    最后,刘东城表达了自己在云化实践中的一些感想,比如,如何实现快速易扩展,做到专线接入,实现更有效的安全管理,以及异地灾备的建设等。

    第二个主讲人OneAPM副总裁张楠坤,也是我们圈子活动的御用大厨,今天讲的内容干货让到场的CIO收获满满。

云和大数据时代的高效运维管理之道

OneAPM副总裁张楠坤

    运维和运营是何种关系,如何紧密相连?从CIO关心的业务出发,如何用好IT运维的工具,把运营和运维结合起来,从用户体验的角度来改善运维。

    从事运维管理,大家听过ITOM,Gartner对ITOM管理工具的范畴定义为三个维度:监测、管理、控制。张楠坤阐述ITOM体系包含的核心要素时提到,以全程服务框架为基础,通过人员、技术(工具)和流程支撑起高质量的服务。人员既包括数据中心领导,也包括了系统维护人员。流程涵盖了故障报警、快速解决、根源分析和知识归档,相当于系统的“神经系统”;安全则是系统的“免疫系统”;资源管理类似于“骨骼”;监控就是“眼睛”、分析就是“大脑”、自动化相当于“手”。

    面向根因分析的一体化ITOM解决方案以集中监控为核心基础。就传统IT监控管理模式而言,核心价值主要包括:系统不宕机,网络不中断,数据不丢失。核心指标包括了:CPU、内存、流量、链路通断性、进程、数据库死锁、中间件连接数等。具体到用户体验,通常是IT运营管理部门(IT部门)和用户体验管理部门(业务部门)发生争执的地方,这就需要高效运维管理加以提升,包括对硬件监控、存储监控、数据库监控以及中间价监控、网络监控、机房监控、云资源以及大数据平台的监控等。通过监控软件,可以详细了解IT资源运行的状况,提供智能检测报告,而不是靠手工和人力来解决。

    此外,张楠坤还提到了新一代监控关键技术,包括拨测/压测技术、侦听技术、字节码技术、插码技术、日志技术等,并逐一进行了详细的阐述,让大家明白了技术的原理、作用价值,以及所要付出的代价。

     在应用性能监控方面,可以提供几种监控手段,明确前端用户用的好不好,如何进行有效的反馈。用户打开页面的行为可以记录,后端进行展示,应用运行缓慢的时候可以准确定位到具体的代码。

   具体到实践案例,以探针技术为例,帮助某运营商做到了后端应用质量代码级诊断。某运营商业务系统出现全面缓慢故障,业务访问十分缓慢,中间件负载一直飙高,应用出现挂起,相关数据库、中间件的日志中并没有有效的报错信息。故障影响整个业务系统,持续6个小时的故障,各个环节一直没有找到原因,无法定位解决。OneAPM经过分析,是黑名单查询耗时较长,以及渠道资源库的连接数不够导致系统故障,随后采取重建黑名单用户表、增加资源库连接数和重启App实例等措施,使系统缓慢故障逐步好转,最终问题得到解决。

    迎接云计算时代,很多业务系统面临云迁移的问题,需要前期的可行性初步调研,明确迁移过程中需要明确关注的指标等。

    另外,对云迁移各个阶段的问题进行梳理,比如,迁移前的问题确认、迁移中的数据核对、迁移后的运维监控等。制定云迁移的基本流程,包括:需求、规划、设计、测试、实施、运维,最终确保整个云迁移的平滑、无缝、安全、稳定。

    关于迁移的流程,主要包括:1、信息收集;2、依赖分析;3、规划设计;4、迁移测试。张楠坤结合具体的应用实践逐一进行了详细的说明。

    以太平洋保险为例,腾讯携手太平洋产险达成战略合作,除夕当晚微信用户使用摇一摇即可参与抢红包,借此吸引了大批用户关注太保微信公众号,届时在2016年大年初五参与抽奖活动。腾讯评估本次微信活动参与人次达1.5亿人次,高峰期并发请求量达到每秒400万次,对人保的IT部门带来了巨大的挑战。

    人保的对应方案是:Docker+APM。采用主流互联网容器技术Docker应对本次高并发的活动访问量冲击,提升高可用质量;采用APM性能管理解决方案,提升网络访问质量、业务系统性能质量,达到高质量的业务吞吐能力保证。采用大数据+日志分析平台,针对微信用户行为、各省市热度及保险购买力、保险购买人年龄层次进行分析。

    OneAPM作为性能管理厂商,提供整个微信活动生命周期的性能安全保障。制定与微信项目同期的计划时间表,从上线测试及生产安全保障,提供性能管理和应用相关性能的定位。

    总结来看,OneAPM运维保障的成效主要包括:生产上线后,持续的健康检查报告,帮忙开发及时update代码业务逻辑;主动式的动态监控,涵盖多个纬度的重要指标;网络性能数据监控,实时掌握网络性能质量;APM大屏掌握实时监控信息;实时事务吞吐及性能告警。

    第三个主讲人是国美云产品支撑中心副总监陈焱。云计算和大数据是传统企业转型升级的好机会,在我们印象中国美属于传统零售企业的典型代表。但是,迎接零售产业的变革,同样需要组建支撑企业转型升级的动力引擎,国美云就是其中的关键。

云和大数据时代的高效运维管理之道

图:国美云产品支撑中心副总监陈焱

    陈焱在《运维与业务共舞,国美云高效运营之道》的主题分享中,结合国美云的业务实践,给在座的CIO在云计算平台的搭建方面提供了思路和实践经验参考。从IT支撑国美业务发展的角度回顾了国美云的诞生历程,面对国美数亿的IT投入,如何让运维从成本中心变成利润中心,帮助集团节省IT成本。

    具体到运维自动化,主要从三方面入手:一是,打造生态链,围绕运维自动化生态链,自研资源交付、CMDB、CI/CD、配置管理平台,提高运维效率。通过打造运维自动化生态链,实现资源整合、平台能力沉淀,为业务提供服务化的技术支持;二是,制定运维标准,运维标准是运维自动化的基石;三是,统一建设,统一开发运维自动化平台,确保各个产业公司按需选择使用。

    结合国美在零售领域的实际业务,对症下药,从成本分析角度聚焦零售运营的核心三大要素:人、货、场。

    在服务导向方面,做到交易类业务集中共享。比如,在共享前,分散在全国400多个地方,难免出现徇私舞弊;客观公正性差,受人为因素制约;人员分散、核算制度执行不到位;培训难度大、效果不明显等问题。共享后,集中到了共享中心,确保了集中审核、集中入账、统一支付,资金统一管理;确保可观公正性;做到人员集中管理、减员增效;集中培训效果显著。

    沙龙不只有干货,还要聊得透彻,玩的开心

云和大数据时代的高效运维管理之道

活动间隙,CIO们打两杆娱乐娱乐

云和大数据时代的高效运维管理之道

讲得好,还得聊得透,好容易逮住机会

云和大数据时代的高效运维管理之道

78CIO App上线了,多提提建议,以后靠你们多用了

    总之,本次沙龙从内容角度,云和大数据已经是未来发展的必然趋势,驱动企业业务转型和发展。尽管很多企业都在面临转型的困境,但是,把握新技术也变相为企业提供了弯道超车好机会。对于CIO来说责任在肩,必须拥抱它,战胜它。从圈子交友的角度,78CIO也会多给大家创造宽松的环境,深度交流,学习成长。

大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞