智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点...

    从工具化到自动化这个层面,过程并没有那么的容易,以及对整个行业来讲,目前更多的工作仍然是在探寻自动化,怎么样让自动化真正的被实现得更好。

    这个行业的发展跟其他传统的软件,标准的软件研发行业,我觉得很不一样。比如说阿里从工具化到自动化这个过程中,我们认为工具化,其实挑战相对小,即使传统的运维人员也很容易写一些工具,比如用 Python 去写更多的工具体系。但是如果你的工具最重要变成能够到自动化这个阶段,就意味着对工具的要求会越来越高,比如说工具的质量,如果你写出来的工具经常有问题,规模一大就扛不住,这个时候对于大家来讲慢慢会越来越失去信任感。最后会很难完成这个过程。

    运维团队转型研发团队 组织能力是最大的壁垒

    阿里过去走这条路的过程中,我们觉得最大的挑战是组织的能力问题。运维团队怎么样更好的完成朝研发团队的转型,这个过程对于很多运维团队来讲都是巨大的挑战。对于一个组织来讲怎么完成这个过程也是非常重要的。

    我想很多团队都有这个感受,工具研发的团队跟做运维操作的团队之间,很容易产生一些冲突等等。所以阿里巴巴在走这个过程的时候,思考的核心就是怎么让一个运维团队真正从组织能力上,演变成我们所需要的更好的团队。

    阿里在走这条路的时候,走了四个过程。这个过程阿里在不断的摸索,最终到现在为止我们认为阿里的方式相对来讲还是不错的。我们最早跟大部分公司一样,有一个专职的工具研发团队和一个专职的运维团队。工具研发团队做工具,做出来给运维团队用。这个过程中容易出现的最明显的问题就是工具做完了,运维团队说这个工具太难用了,不符合需求。要么就是运维团队执行的过程中,经常出问题,出问题还要找工具研发团队来帮忙查问题在哪里。本来运维几行脚本全部能搞定的问题,结果还要依赖工具团队。慢慢这个局面越来越难突破,很难改变。

    所以阿里后来做了一个尝试,既然两个团队很难做很好的结合,那有一种方式是工具研发团队做完工具以后,比如说做了一个发布,做完这个功能以后,这个运维工作就彻底交给工具研发团队,不让运维团队做了,运维团队就可以做一些别的事情。这个模式看起来就是逐步接管的模式,让工具研发团队逐步解耦。

    这个做了一段时间,碰到的最大问题还是组织能力问题。对于运维工具来讲,质量怎么做到很高,运维好像很容易做的样子,但是实际上运维工具相当难做,它的复杂度比在线业务更大,就是它不是逻辑上的复杂,更多的是环境层面的复杂。因为比如会涉及网络涉及服务器涉及机房等等,这跟业务完全不一样。所以做了一段时间之后,我们觉得这还是一个问题。

    将工具的研发和运维融为一体 突破组织能力问题

    后面我们做完这轮之后又开始做另外一个方向的尝试,让工具的研发团队和运维团队做一个融合。所谓的融合就是把很多工具研发的人分派给运维团队,到运维团队去做。我们期望通过工具研发的人带动整个运维团队转变成研发型团队。这是我们的思路。

    阿里巴巴在走前面这三步的时候,大概花了近一年半左右,意味着这其中我们大概做了三轮组织结构调整。因为我们认为这些都是要有组织层面的保障才能被实现的。

    DevOps是如何真正落地的

    去年6月,我们做了一个最大的组织结构调整,把日常的运维工作交给研发做,研发自己会把日常的运维工作都做掉。但并不是说所有运维工作,现在仍然有一个做运维的团队,这个运维团队相对来讲更不一样,跟以前有非常大的不同。

    我们认为这是DevOps真正的被彻底的执行。因为这个好处是,日常的运维工作交给了研发,运维团队转变成研发团队这个过程非常困难,其实不完全是能力上的差距,更大的原因是,运维团队要承担非常多的日常杂活,尤其像集团性的公司,不管是阿里、腾讯、百度都一样,集团性的公司多数支撑的 BU 都是无数个。你一个人支撑二十个 BU 一个 BU 里面一天有一个人找你,你一天就不用干别的活了,你一天就在跟他们不断的聊天,做操作,嘴里又叫着这个团队要升级,要做组织升级,要转变成研发团队,实际上就是逼别人走向了一条死路。

    所以我们认为,谷歌的做法,谷歌在 SRE 那本书提到的是,会强制留 50% 的时间给研发团队做研发工作。这个说实话,在大多数公司很难执行这个政策,除非运维团队跟研发团队有非常强的话语权。但这个很难。所以阿里的做法我认为更为彻底,阿里告诉研发团队,以后日常运维的工作不要找运维团队,自己干。这可能粗暴了一点,在运维体系还没有准备得很好的情况下做了这个事情,所以后面相对来讲也导致了问题,比如说运维工具四处建设、重复建设等等现象。但是从组织层面上来讲,我们很欣慰的看到,在做完这轮组织调整过后的一年后,运维团队的大多数人更多的时间是投入在研发工作上,而不是投入在日常的杂事上。我们看到了一个团队的能力,在经过这一轮的调整得到了非常好的升级。而这对于组织来讲是最大的利好。所以我们认为,这种模式是阿里现在最为推崇也最为看好的一个方向,这样整个运维团队将专注在我刚才讲的五个部分的系统层面的研发以及建设上,而不是杂活上。这是阿里从工具化到自动化,最主要是这样的一个过程。

    成功率是衡量自动化运维的关键指标

    对于自动化来讲最重要的问题是成功率,比如我们看所有的运维操作中,我们最关心的指标是成功率。比如一个运维系统里面的功能,在一个星期内,比如说会用几十万次,我们只关注成功率能不能做到 4 个 9 以上,否则算一下工单数就懂了,这个运维团队得有多少人支持这件事情,这些人又没有时间去干研发的活,又要投入大量的精力做支持性的工作。所以我们在成功率上要做到非常高的保障,运维系统我们以前看过是面临最大的挑战,我以前的背景全部是做在线业务型的系统,比如淘宝的交易等等。

大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞