智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点...

    我们以前一直都认为定位这个问题不是个大问题,如果我能快速修复,定位,你慢慢定好了,定个两天我也无所谓。但是现在阿里特别重视的原因在于,故障定位损耗了我们非常多的人力,耗费了我们非常大的团队力量。所以我们认为需要有更智能化的方法,把故障定位出来,以助研发团队更专注投入在其他事情上。比如现在故障一出来,研发查了半天,一看,跟它都没有什么关系。所以就浪费了很多,这张图是我们现在在做的一套系统,从一个异常,那里标一二三四五,当有一个异常出来之后,第一步发现,第二步不断的分析,一直定位到最后到底是哪个地方出了问题,我们的目标是最后尽可能定位到代码层面的问题,或者是网络或者是基础设施等等。

    边压边弹 做好规模化运维

    目前对阿里来讲最重要的问题还是效率问题。比如说我们在每年准备双十一容量的时候,很多人都知道阿里有全链路压测,一个最重要的目的就是调整容量,怎么把一个机房的容量调整成比率是最合适的,比如说 A 应用可能是瓶颈,但是事实上如果搭配得好,A 应用就不再是瓶颈。所以怎么样让一个固定机器数下做一个最好的搭配,我们以前是压一轮调整一下,再压一轮再调整一下,这非常耗费一堆人通宵的精力。我们认为这个过程需要提升,现在改成非常简单的模式,流量过来以后不断的自动调整容量比例,我们会有一个所谓边压边弹,一边压测一边调整比例。相信很多运维同学都干过这个事情,因为业务方给你一个指标,你是要算的,而且很难算的很精准。边压边弹意味着你不需要算得很精准,粗略算一个数就可以了,后面靠这套系统自动给你调平衡。

    阿里巴巴在这五个方面,在智能化方面做的探索,阿里认为我们还不足以所有的领域都去覆盖。

    未来运维领域需要突破的防线

    无人化 让梦想照进现实

    我认为现在运维这个领域中最大的挑战仍然是,能不能真正的走向无人化,整个过程中是完全没有人的。

    从目前来看,要做到无人化最重要的是质量问题,质量做得不够好是没有办法无人化的。另外如果出问题了能不能自动修复等等,所以我们认为无人化对运维领域是最大的挑战,能不能把这个落地变成现实,奠定了智能化的基础。如果说智能化所有的动作要人介入,那基本就不用做了。

    智能化 带来效率上的质变 

    在智能化这一点上,第一点是有效性的问题,如果这个智能表现得比人的智力还差一些,这个慢慢就没有人相信这个东西了。所以怎么样把有效性提升上来,另外最重要的是要看到智能化给运维领域带来效率上的质变。智能化投入非常大,要做大量的收集做大量的分析。所以最好带来的是质变而不只是量变,如果只是量变可能投入都收不回来。对于所有公司而言,更少的人更低的成本是非常重要的。人最好投入在一些更重要的研发等等事情上。

大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞