智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点...

    阿里巴巴智能化运维五步走

    简单讲一下我们在各个领域目前在智能化这个领域,在运维这五个领域,对于我们讲,智能化我们看到的一些可能性,包括我们正在做的事情。



    智能化


    资源的重点是成本

    基础设施选型

    对于资源这一块,整个公司层面最为关注的问题,就是成本。你交付的资源具不具备最低的成本,这个智能化确实可以给非常大的帮助。比如第一点,怎么更好的规划这家公司机型、网络和整个数据中心,这为什么要用智能化的手段在于,一个数据中心的选址来自非常多的因素,除了政府层面的政策因素之外,还有很多其他因素需要考虑,比如说气候等等各种各样的因素,都需要在这个阶段去考虑。你需要通过大量数据的积累来分析,比如在中国,在海外,到底有那些地方是对你的业务发展策略来讲最适合的,是在哪里,这要确定一个范围,在一个范围基础上是进一步的人的建立。对于网络、机型来讲,目前我们认为最可以做的在于,可能因为阿里的模式跟有些公司不一样,阿里更多的机器都来自同一个部门,基本上是同一个部门在教阿里巴巴所有的机器。这就有巨大的好处了,因为都在一个团队。比如阿里巴巴在去年开始建设统一的调度系统,更大的好处就来了,因为大家所有的资源都来自同一个地方,这个地方就收集了整个阿里巴巴的所有的资源需求、数据,数据全部在它手上。

    如果你结合这个数据,以及它实际的运行情况,更好的就可以去推导,比如说对于阿里巴巴来讲最合适的机型是什么,这个阿里大概在去年就开始做尝试。在去年以前所有的过程,阿里巴巴,比如说明年我的服务器的机型,所谓机型,这里讲的机型的含义主要是比率问题,不是选择下一代什么样的 CPU,那是硬件发展决定的。但是比率因素,以前我们更多的是人脑拍,人肉智能。人肉智能在一定阶段是更加高阶的,过了那个阶段之后人就比不过机器了。团队说我们明年要买的机型里面的配置大概是这样的,人算了一下,就这样吧,就可以拍掉。去年开始我们引入了一套系统,这套系统会分析所有的数据以及钱,最重要的是钱,然后分析一下整个过程,推演对我们来说最合算的是什么。所以适合的机型到底是什么。

    如果有一套非常好的推演的系统,来推演你的机型、网络、IDC 未来应该怎么规划,这对于成本领域将会产生巨大的帮助。比如说网络,现在的发展,万兆,25G、45G、100G,你认为对于你的公司来讲最合适的是什么?多数公司八成就是人脑一拍就决定了,但是事实上可能不是这样。

    DC 大脑,让控制更加智能化

    DC 大脑,这个现在比较火,这个领域现在非常火爆,火爆的主要原因有可能是因为去年谷歌的一篇文章,谷歌去年发表了一篇文章,里面有一个消息透露了一下,他们通过更好的智能化,去控制整个机房的智能等等。比如说控制空调的出口,就是那个风向往哪边吹,控制这个,然后为谷歌节省了非常多的钱,非常可观。所以对于很多数据中心团队来讲,现在都在研究这个领域。因为这个领域实在太省钱了。

    我们后来类比了一下,我们说其实大多数人,可能你很难感觉数据中心,但是你最容易感觉的是另外一个地方,你的办公室。比如说我们以前说,阿里巴巴一到夏天的时候,办公室实在是太冷了,比外面冷多了。如果能够更好的控制温度,对于我们来讲就会有巨大的帮助,对公司来讲可能会更加省钱。所以怎么样做好这个非常重要。

    弹性伸缩最大的前提是实现自动化

    弹性伸缩,这是无数运维团队都想做的事情,研发团队说,业务团队说,我要一百台机器,你也不好反驳他,最后上线了一百台,你发现他用十台就够了。但是你也很难跟他纠结这个问题,好像无数的运维团队都在尝试弹性伸缩。但是我说了,弹性伸缩最大的前提就是自动化,如果没有自动化也没有什么意义。

    资源画像让资源更好搭配

    资源怎么更好的搭配,阿里巴巴在尝试做资源的画像。对于所有的在线业务来讲,它的趋势比较好预测,多数在线业务,只有少数的在线业务不大好预测。多数在线业务是一个模式,如果预测得非常好,让资源有合理的搭配,对于这家公司的资源将会产生巨大的帮助。

    可以下降 30% 由变更引起的故障

大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞