智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点...

    后来我们发现运维系统有个最大的不同在于,运维系统对于成功率的追求比在线业务型系统更高一些。在线业务型系统,比如说我在访问后面一个地方有问题的时候,我们会选择尽快把这个过程失败掉,而不是把时间不断的拖长以及不断的试错。在线系统会更加快的把错误往外抛。但是对于运维系统来讲如果也这样做,就意味着这个成功率非常难保障。所以运维系统要有更好的思考,怎么保障一次运维操作,这背后可能有几十个系统,而且多数是无数的团队写的,阿里以前碰到的情况就是无数个系统,质量层次不起,什么都有。怎么保证在这么复杂的环境下,保证对外的,对用户层面这个成功率可以做到很高的。这是一个很大的问题。

    规模带来的挑战也是不容小觑

    随着规模的不断增长,所有开源类型的运维类的系统,在规模化,当你的机器规模等等其他规模上升到一个程度以后,通常来讲都会面临非常巨大的挑战。阿里巴巴所有的这种类型的系统,我们论证都是自己做是比较靠谱。最大的原因是规模,规模上去以后会遇到很多问题。像代码托管、代码编译什么的,以前认为不会有太大的问题,事实证明规模上来以后这些里面全都是问题。我们也要投入非常大的精力去做规模方面的解决。

    所以我觉得,阿里从以前的工具化走向更加自动化的过程中,我们探讨的核心问题就是能不能有一个非常好的组织去完成这个过程。能让运维的团队更加转型向 DevOps 这样的方向。所以我们一直说,我们一直很纠结运维团队到底应该叫什么名字,我们一致认为,运维研发团队,我们觉得不大对,你的主要的活其实是干研发而不是运维。但是叫研发运维又有点奇怪。后来阿里巴巴基本上是叫研发团队。因为我们认为运维的研发团队和在线业务的研发团队没有本质区别,都是做研发的,只是一个在解决运维领域的业务问题。刚才讲的五个层次,运维领域的业务问题,也是业务,没有什么区别。在线业务,比如解决交易的问题,解决其他问题,这是完全一样的。两个研发团队没有本质区别。

    所以这个过程,阿里经过过去这一年的组织调整以后,我们看到整个自动化层面,阿里有了很好的进展,但是离我们的期望还要更加努力继续往前演进。

    阿里巴巴在智能化领域的探寻之路

    现在智能化这个话题特别火热,就像我们说,AI 这个名字兴起的时候,我们忽然发现,阿里巴巴所有的业务都讲 AI+ 自己的业务,被所有人狂批一通。我们要想清楚,具不具备 AI 化的前提,可能前提都不具备就不断探讨这个名字。因为业界在不断的炒热非常多的名词,让大家去跟随。

自动化是智能化的前提 

    对于我们来讲,我们认为,比如说就像我对这个团队,我自己的团队讲的一样,我认为智能化最重要的前提是,一是自动化。如果你的系统还没有完成自动化的过程,我认为就不要去做智能化,你还在前面的阶段。智能化非常多的要求都是自动化,如果不够自动化,意味着后边看起来做了一个很好的智能化的算法等等,告诉别人我能给你很大的帮助,结果发现前面自动化过程还没有做完全。

    一个最典型的 case,阿里巴巴以前一直在讲,我们认为资源的搭配上,其实可以做得更好。比如说你半夜流量比较小,白天流量比较大,你能不能更好的做一些弹性,把资源释放出来去干点别的,然后白天再把它补起来。这从算法层面上并没有那么复杂,从算法层面做到一个简单的提升是很容易做的。所以,当时我们就有很多团队做了一个东西,可以做到这一点。结果等到落地的时候发现,业务不能自动伸缩。如果你想,比如说有些机器上面负载特别高,有些机器特别低,我们希望负载能拉得更均衡,在线业务更加稳定化,做一个算法,比如说背包,更好的去做组合,结果就是这个东西做完了,给出了建议说最好这个应用调到那台机器,那台应用调到这台机器。给完之后业务团队看了一眼,我们不干,因为干这些工作全部要手工干,你还每天给我建议,更不要干了,每天就来调机器了。

    所以首先你要想明白你的前提,自动化,具不具备自动化的能力,不具备的话没有必要在这方面做过多的投入。

    数据结构化是智能化的源动力 

    目前 AI 领域基本是靠暴力,暴力破解,未来可能有别的方向,但是目前的 AI 基本上是靠大量数据的积累去寻找一个东西出来,所以它一定需要有大量的数据积累,数据包括非常多的东西,对于运维来讲,可能基础层面的数据,机器的数据,运维变更的数据,上面还有一些场景化的数据,比如你解决故障,有没有更好的结构化的收集数据,这是非常重要的。数据这个层面比较难做的在于,      在最开始阶段,多数公司的运维数据都是不够结构化的,结构化不会做得那么好,当然会有结构化,但是结构化的因素不会足够好。

    就像阿里巴巴在讲,我们在电商领域 AI 化,我们最大的优势就是不断对外部讲,我们拥有的是结构化的商品数据,其他公司最多从我们这里扒结构化的商品数据。你扒过去之后还要自己分析,并且做商品结构的调整,这非常困难。但是阿里巴巴自己天然,所有人都会帮你把结构做得非常好。所以对运维来讲也是一样,如果你想在智能化上有更多的突破,数据怎么更好的做结构化,是一个非常大的挑战。你很难想清楚。这两个地方是我觉得首先要想清楚的。

    智能化最适合的运维场景

    从目前来看,对于运维场景来讲,智能化特别适合解决的问题就两种,对于所有行业好像都差不多,第一是规模,第二是复杂。规模就意味着,我有很多的机器,在很多机器中我要寻找出一个机器的问题,这对于,因为规模太大了,这时候对于用传统的方式,将非常难解决这个问题。或者你要投入非常大的人力等等,有点得不偿失。规模上来以后怎么更好的解决规模的问题,智能化会带来一些帮助。第二是复杂,比如说你的应用从原来的一个应用变成了几千个、上万个、几十万个,这时候你要寻找出其中哪个应用的问题,将是非常复杂的问题。所以复杂度的问题是人类用人脑非常难推演的,但是机器相对来讲是更容易做的。这是阿里有些团队希望尝试智能化的方向,通常我们会看是不是在前面的这些前提条件上都具备。如果都具备了,那可以去探索一下。所以我讲,阿里其实目前处于整个智能化运维的探索阶段,而不是全面展开阶段。

大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞