微信号:infoqchina

介绍:有内容的技术社区媒体

运维三人行:谈运维自动化与工程师的地位

2013-09-06 17:30 周秋野

下面这段对话来自QCon北京2013专访间,三位来自不同公司、不同背景的运维同学围着一杯星巴克,谈论运维人生。他们是:


邵海杨  网名@海洋之心-悟空,系统架构师,业余撰稿人,十多年来一直致力于开源软件及前沿科技的研究和探索,目前在又拍云存储任运维总监。杭州LUG组织者之一。

周秋野  网名@秋天的野菜,超过8年的互联网技术工作经验,先后在金融界、卓望信息、世纪佳缘等国内互联网公司工作。目前工作于乐蜂网技术团队,带领运维团队开拓技术思路,明确技术运维产品化的理念,将技术运维逐渐转为技术运营。 

刘宇  网名@守住每一天,本次采访之时就职于新浪,当时担任新浪内容加速平台(SinaEdge)运维负责人。擅大规模Linux集群环境的自动化管理与运维、问题分析、性能调节和架构设计优化、分布式监控、CDN相关,以及GTD高效管理有一定的探索。


下面看看他们聊了些什么:


周秋野:各位网友大家好,这里是QCon TV,非常感谢InfoQ组织这次大会,让很多的帅哥坐在一块,一块聊聊家常,一块聊聊互联网,一块聊聊我们未来美好的生活。大家都是做运维出身的。有很多人都说,运维是整个互联网技术行业最苦、最底层、最农民的一个行业。但是,我身边的这两位帅哥……先给大家打声招呼。


邵海杨:大家好,我也觉得运维一点都不苦B。不苦B是有个前提的,我想说的是,其实要做一个好的运维,有三点必须要掌握:第一个呢,就是运维要自动化,你要学会一些工具,能够帮助把你的运维流程规范;然后标准化,这样你就可以批量的去部署,去配置机器。第二个呢,就是要性能可视化,就是我们要用一些手段,把服务器上面的一些采集点,比如说性能都描述出来,那么这一点非常重要,为什么这么说呢?我们做运维只做两件事情,其实说白了,一个就是要把你的机器管好。机器管好,怎么管呢?用自动化的工具去管好;第二个,就是你要伸手问老板要资源,但是你怎么去伸手问老板要资源呢?这时候你就必须要给老板看得懂的一些报表,比如你的性能可视化,当一台机器的时候它的loading顶不住的时候,这个报表老板是看得懂的,这时候他就愿意拨钱给你,或者说拨人手给你,来做这个资源的增加。那么第三个,我要说的是监控常态化,就是当我们出现问题的时候,会有一些及时的短信报警,这些短信报警又会促发脚本去做自动化的回退,或者说节点的切离,那么当你掌握了这三点以后,我觉得这个运维就不苦B了。刚才秋天的野菜说的那些,我很想说,我的生活很丰富,早上不打卡,公司里基本上找不到我的人,我一直在向高层,还有向我的同事传递一个信息,就是什么呢?最好的运维就是不要记着我是谁,就是一天到晚不要在找运维是谁,最好让别人忘记掉你,这才是最高的境界。所以我现在是这样的,回到家就不带电脑,陪老婆孩子,周末就看看电影,因为我觉得这样的生活才叫生活,当然这一切都取决于你的运维工作要做得非常智能。其实智能只有一点,就是什么呢?没有单点故障,这一点很好理解,一台机器不够的时候你就配两台,配三台,这样就可以为你赢得时间去处理问题,这样就可以OK了。


周秋野:一看这个工程师就是一个非常有生活的工程师,连美好的生活都是靠自己去创造的,他们两个人说的这些观点,基本上都把我的话都给抢了,我也没什么说的。但是补充一点,像刚才的帅哥说的,让大家忘了你是谁的时候,但最好不要让HR的部门忘了你,否则发工资的时候发不到你了,该发多少钱还得发多少钱。运维的最高境界就是自动化,让我们很轻松,很快乐的去工作,因为运维还有一个辅助的一个功能,也是一个非常强大的功能,就是帮公司的研发部门,或者测试部门,或其他部门去解决问题,靠我们去解决很多的问题,因为我们是最了解系统的,最能够发现这些问题,而且给它纠出来,不让这些隐患在你最重要的时候出现这些问题,否则就是整个系统就崩溃了,运维肯定是背黑锅的。在这个里头,运维还有一个事情就是,所有的事情已经要打提前仗,提前说,你需要多少带宽,你需要多少资源,整个的事情都要打提前仗。还有一件事情,运维人员不要跟写代码的人员似的,我不是这在里头说我们这个行业有多么好,写代码的人员有可能是单核的,我们必须要双核,有可能我们还要四核,他们有可能插46G内存,但是我们身上有可能需要插256G内存,所以我们想的东西要更多,我们肚子里面和脑袋里面装的东西更要更多一些,我们是整个技术行业里边最前沿的,首先要保护好自己,也要保好我们的系统,守住我们的阵地。运维整个里头包括的内容非常多,CDN,云平台,存储,安全,数据库,网络,系统,系统里有Linux,Windows,Oracle,MySQL……还有,像你们公司非常有规范,有老大带着,你们内外网是分开的;像我们这种二线互联网公司里面就是内外网不分开,都归我管,整个公司里头一千多人在这种IT桌面支持这个工作还是归我们几个兄弟管,有可能是我们平时的工作当中,对人的接触大过于机器。人是比机器还要复杂的,所以有时候跟人打交道的这种沟通的成本远远大于机器。所以在整个来看,运维还是需要有一个管理成本,你需要带动好自己的兄弟,因为谁都有惰性,有可能工作不积极,很多的这种情绪,所以你作为一个Leader来说,怎么去安抚好你的兄弟,怎么带动好你部门的气氛,带动运维的人员和团队,这是很重要的。运维的人员需要活泼,需要有激情,他才能够把一帮屌丝程序员给他带动起来,要不然我们本身很郁闷,工作起来没有激情,他们就更歇菜了。我不知道同意不同意我的观点,同意的鼓掌。


刘宇:我要问秋天的野菜几个问题,问一下海洋几个问题。肯定一线的运维工程师,不一定会像你们这样过的这么舒服,像我这种也是苦在一线的工程师,星巴克不能解决问题,实质上出了故障我们还得上。我晚上不带电脑没问题,可能你的架构做得非常的好,可能还是会有哪些小公司,小的运维公司,我以前也在小公司,对不起,我没有钱,我没有办法给你做两台的容错,我是没有办法去做的,我也有这样的一些数据去给领导看,我也有很多的数据去给领导看,说我现在业务到了瓶颈了,我的服务器压力非常的大了,我需要去做那些事情,但是不给你,这个时候运维工程人员,我的心态再怎么好,每天上下班我微笑着去,我每天看着你就跟看着钱似的,还是不行。两位对这个问题怎么去看?你们有没有什么良策,来一到两个点子,真真正正实实在在的。 


邵海杨:我先来,我是想说的,运维工程师想让自己闲下来不是一件容易的事情,这是一个挑战,我们的终极目标是一定要让自己闲下来,刚才刘宇的问题我想说,当你不具备这些条件的时候,你能做的一个事情是一个自己苦练内功,尽可能从一些细节问题上面能节约一点时间,就节约一点时间。第二个呢,就是要寻求帮助。我说运维是一个团队,这个团队不光是你身边的人,不光是你这个群体里面的人,还要出去走走,要多跟人家交流,打个比方,今天如果我这个运维,我遇到了我不能解决的问题,因为你们两个是我的好朋友,我向你们求助的时候,你们是不是会帮助我?这也是一种手段,就是寻求帮助,帮助你来解决这个问题。然后呢,这个运维自动化,我是可以推荐一个草根做法,就是用bash来写,bash,sed和awk,Linux编程下面的三剑客是可以足够完成自动运维的一些问题,当然还有高富帅的解决方案,比如Puppet,这个刘宇是专长,现在我也是这样的,我做的那些系统里面,不光含有这些基本工具,然后也包括了一个Puppet client在里面,今后我要特别多学习一下。然后呢,我希望运维人员就像野菜说的,我们要给人家一种积极向上的一种正能量,不能让他们觉得我们好像很苦B,进而变得说服务器也苦B,因为在我想象当中,当你掌控着几百台,或者成千上万台机器在我们手中跳舞的时候,我觉得那个是非常快乐的事情,当然这需要我们的努力。


更多精彩内容,请查看原文。


***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 传智播客2015年度教师荣誉称号征集活动正式开启! AFNetworking 3.0迁移指南 最著名的开源GIS数据库-PostGIS 让姑姑不再划拳 码农也要有原则 : SOLID via C# 软件技术COP第一届黑客松圆满结束