从携程宕机引发“运维人员”的思考

2015-06-01 09:48:42 大云网  点击量: 评论 (0)
昨日上午11时09分,携程官网和APP突然无法使用引发热议,不少人对此幸灾乐祸,衍生出各种谣言段子。公众在调侃携程的同时,可能难以体会到携程技术部的巨大压力,尤其是运维部门面临的压抑和不安。 今日凌晨
昨日上午11时09分,携程官网和APP突然无法使用引发热议,不少人对此幸灾乐祸,衍生出各种谣言段子。公众在调侃携程的同时,可能难以体会到携程技术部的巨大压力,尤其是运维部门面临的压抑和不安。
      今日凌晨,原支付宝运维团队负责人智锦发表《深入解析和反思携程宕机事件》一文,让不少运维人读后深有感触,OneAPM也感同身受。面对层出不穷的安全隐患,当下运维人员亟需一套新型高效的方法论和工具,为自身运维工作“减负”,告别加班熬夜的怪圈。
运维重要性凸显
      在不少企业管理者眼里,运维长期处于“边缘化”角色,他们往往不知该如何评价运维价值,甚至很多运维从业者也不知该关注什么,每天任务就是到处当“救火队长”。
       众所周知,运维和性能息息相关,网站的访问性能(速度、稳定性),对于如今移动互联网时代的企业而言,已经成为影响公司发展过程中至关重要的一环。
       以谷歌为例,网站打开速度只要差400毫秒,用户请求将会下降0.59%。更何况携程发生如此严重的宕机事件,造成损失难以估量。由此可见,企业管理者必须转变“传统运维”思考模式,积极探索新玩法。
      通过携程宕机事件,OneAPM建议IT企业和技术人员应痛定思痛,认真总结经验教训,认识到“运维”的价值和重要性。
APM为运维工作减负
在传统时代,运维人员只能通过查询、分析各种日志文件来分析各种故障问题,基本上靠血肉之躯实现了业务部门的信息化,但已越来越难以适应新时代的运维需求。
     近年来,APM(应用性能管理)已成SaaS领域最火的创业方向,其能对企业关键业务应用进行监测、优化。提高企业应用可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。
     以OneAPM为例,OneAPM专注于提供下一代应用性能管理软件和服务,帮助企业用户和开发者实现缓慢的程序代码和SQL语句的实时抓取。产品适用于复杂的现代应用程序生产环境,提供端到端应用性能管理、移动端和浏览器真实用户体验分析、业务交易实时分析,可以降低运维人员 90% 故障修复时间,减少 80% 的客服工作量。
APM的运维价值
      携程此次宕机发生后,历经17个小时才恢复正常。究其原因,主要是对大型网站而言,数据恢复远不是搞定几个应用和几个数据库服务器那么简单。一个网站的后台是一个由SOA(面向服务)架构组成的庞大服务器集群,每一个简单页面的背后,都由成百上千个应用子系统组成,每个子系统又包括若干台应用和数据库服务器,而且不同应用系统之间也存在耦合和依赖关系。这么多复杂的系统交织在一起,数据恢复的难度可想而知。
      为此,OneAPM提供一套新型解决方案。通过OneAPM的Application Insight 产品可以实现对前端浏览器、网络传输、应用性能、中间件性能、数据库性能的自动关联及分析功能,可自动发现应用执行过程中涉及的软硬件基础架构组件,以及他们之间的交互路径。
这也意味着,使用Application Insight 就能够根据应用拓扑和自动发现和可视化,进而实现对系统进行整体的把握。
     不久前,OneAPM客户通过后台监控发现线上服务出现异常日志,通过监控报告发现,JVM垃圾回收指标迅速升高,运维马上进行针对性的分析,很快发现出现问题的代码行,在最短的时间内解决问题。直到半小时后,该公司使用的公有云服务商才发出告警信息。
     从该层面而言,OneAPM对运维人员的价值不言而喻,OneAPM能够帮助IT运维人员提前预警,快速定位到故障问题,为运维人员节省更多的时间成本和和劳动强度。
除此之外,OneAPM另一核心价值就是将“黑盒运维”变成“白盒运维”。传统的运维人员算是“黑盒运维”,不断去做重复性的操作,时间久了,只知道自己管理的服务器能正常对外服务,但是却不知道应用的依赖关系。
      通过OneAPM,运维人员能真正清楚所管理的系统的功能和配置,从前端浏览器到后端应用服务器、数据库,能够有效监控和分析系统执行的每一个环节,从源头上解决运维人员到处救火的窘境。
对于携程此次宕机事故,OneAPM建议公众应以理解和宽容心态对待。对于互联网公司而言,突发性技术故障算是稀疏平常之事,Google、Amazon、百度、腾讯、阿里巴巴等也难以幸免。
      OneAPM也希望通过本次携程宕机事件,让业界重新认识到运维的价值和重要性。同时建议运维人员能接触和了解APM。当然,并不意味使用APM就能一劳永逸,OneAPM更多的是帮助运维人员提供一套高效的管理模式,以及更加智能化解决方案。
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞