携程瘫痪12小时或损失上千万

2015-06-01 09:53:57 大云网  点击量: 评论 (0)
 新京报讯 5月28日11时起,携程官网及APP无法使用,直至当天23时29分,才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。  在携程宕机之前,5月份以来,
 新京报讯 5月28日11时起,携程官网及APP无法使用,直至当天23时29分,才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
 
  在携程宕机之前,5月份以来,已有网易、支付宝钱包等网络服务出现短暂的无法正常使用的现象。其中,5月11日晚上8时许,网易突然出现大面积服务瘫痪问题,网易新闻、云音乐、易信、有道云笔记等多款移动应用均无法正常刷新,网易名下的游戏也全线瘫痪,用户长时间无法刷新和登录。但第二天凌晨2点就已经恢复。5月27日17时左右,支付宝钱包出现故障。支付宝1小时后就找到故障原因,是杭州萧山一处光缆被挖断。
 
  而携程此次宕机,从发现到全面修复超过了12个小时。互联网企业宕机,修复时间如此长的情况,比较少见。
 
  为什么恢复时间那么长?携程从技术角度对新京报记者解释道,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,一个页面背后由上千个应用子系统以及上千个WebService组成,每个应用子系统和每个WebService之间存在着相互调用的依赖关系。事件发生后,携程除需要恢复生产服务器上的执行代码,还需要确保应用子系统和WebService的功能正常,以及两者间的调用关系正常执行。这种验证性的操作需要反复地、持续性地调试。
 
  为杜绝此类事件的再次发生,携程表示,已经在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
 
  除了消费者,携程自身受到的影响也非常惨重。以携程今年第一季度财报的数据计算,净营收23亿元,28日携程相当于每小时损失106.5万元的生意。以12小时计算,携程大约少了1278万元的业务收入。
 
  ■分析
 
  互联网脆弱企业该做什么?
 
  不到一个月的时间里,主流互联网企业中,就有网易、支付宝、携程的服务器或系统先后“倒下”。对于互联网赖以生存的网络、设备、技术可能变“脆弱”的情况,企业应该怎么做?
 
  安天首席架构师肖新光告诉记者,注意备份、备灾非常重要。通常来说,大的互联网企业都会有比较成熟的备份机制和应急预案等,通常可以做到小故障不影响用户体验(甚至让用户感知不到),局部故障可以快速恢复等等。
 
  对于数据,热备份和冷备份都已经是较为成熟的技术。通俗而言,热备份是至少两台设备同时进行相同的数据操作,如果一个设备出现故障,可以快速切换到备用设备。冷备份是指,每隔一段时间进行一次数据复制,来确保一旦出现故障,至少可以恢复到接近当前的某个时刻,但恢复需要更多时间。
 
  技术与方法等是相对比较成熟的,但同时也要看企业对整个系统的设计是否得当、投入是否足够、管理是否有效。目前企业的相关投入更多对应的是一些自然事故,如服务器损坏、线路中断、包括机房遭遇水灾、火灾等,但对于恶意攻击、内部犯罪等防范的能力和防范投入往往还有一定欠缺。
 
  对于重特大事故和事件(如长期策划的蓄意入侵攻击,特别是内部的攻击),从最开始的一片混乱到有效处理,可能需要更长的时间。多数企业缺少对最坏状况的演练。同时,如果立足于防范极限情况,也需要付出更多的日常成本。
 
  作者:赵嘉妮
 
大云网官方微信售电那点事儿

责任编辑:大云网

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞