微信号:greatops

介绍:高效运维公众号由萧田国及朋友们维护,经常发布各种广为传播的优秀原创技术文章,关注运维转型,陪伴您的运维职业生涯,一起愉快滴发展.

在故障面前,除了背锅,运维还能做些什么?

2019-03-12 07:10 GOPS

3月初的突如其来的一场云宕机,硬生生的把一群低调务实的运维同学们从睡梦中惊醒,他们披上消防战衣,迅速进入了抢险救火的状态。


 

整夜不眠与故障搏斗到天亮,终于在业务高峰期到来前,等到云厂商的故障恢复,再一次挽救业务和背上黑锅。


仿佛故障和运维之间已经产生了一种“默契”,无论是IDC托管时代还是云计算时代,基础设施的升级换代貌似并没有让运维能力得到有效的提升。


那么,作为公司业务的护航人,每个运维都应该反问自己一句,在故障面前,除了背锅,我们还能做些什么?


权威发布并解读:技术运营标准(全新版)



由高效运维社区、信通院联合发起的运维行业标准,历时多年的打磨,汇集了国内众多运维专家的经验和智慧的结晶——“技术运营成熟度模型”。


分别以六大技术运营的管理维度,提供可量化和可评测的运维能力成熟度检查项,供广大企业的运维同仁参考与自评,找准技术运营能力提升的路径。



每个管理维度下,将过程域逐层展开到评估维度:


各项技术运营能力评估维度被划分为五个成熟度,分别是初始级、基础级、全面级、优秀级、卓越级,五个阶梯式的技术运营提升的路径。



回到某云的IO HANG的大面积故障,快速定位故障影响范围,二级配置管理能力就能够实现快速评估初受影响的基础设施和受损业务,故障处理人员可依据此马上作出调度决策。



再将配置管理与应用运行与维护管理的能力进行组合,运维团队可以清晰的按照本标准的成熟度模型进行规划,对企业的技术运营体系有全面性和可预见性的建设路径。



面对突如其来的故障,运维团队要实现快速精确的监控告警,在本标准的告警与管控能力成熟度的定义如下。


并且,监控管理能力成熟度会按照数据流处理的先后次序,将各个环节的技术运营能力成熟度按运维实际场景和功能的目的,进行的有效的衔接与组合。



其实,早在2015年萧田国先生牵头发起技术运营标准相关的工作,2016年社区组织的《互联网应用运维实践》发布,2017年《运维三十六计》发布,2018年3月《DevOps 三十六计》正式出版,2018年底《DevOps 持续交付标准》正式发布。


终于,《DevOps 技术运营标准》在经历4年2次推翻重来的严苛审核下交稿,将于4月12日 GOPS 全球运维大会(深圳站)正式发布。



我们不能把命系在别人的裤腰带上,让业务质量强依赖于基础设施的可靠性是极不明智的。立足于技术运营的诉求,有计划、分阶段的提高运维能力,让业务架构越来越成熟,才是我们返躬内省,砥砺前行的正确方向。


见证 技术运营标准(全新版)发布与首次权威解读



请来 2019 GOPS 全球运维大会·深圳站(4月12日-13日)


“GOPS 全球运维大会·深圳站”可谓2019开年运维充电的好机会,自动化运维、AIOps、DevOps 相关议题百花齐放,超过60个议题完整涵盖运维技术各个方向。


更有金融、电信、互联网以及传统企业众多资深专家(工龄15+)现身说法。


扫码即可查看全部议题


点击阅读原文,了解4月12日,第12届GOPS 全球运维大会·深圳站


文末福利

关于“GOPS 全球运维大会·深圳站”您有任何的看法或想聊点啥,请尽管在留言

24h内点赞Top3的朋友,您将获得《智能运维:从0搭建大规模分布式AIOps一本

24h内点赞Top3-10的朋友,您将获得《企业级 AIOps 实施建议白皮书》一本

联系人:晨晨:135 2116 9787

 
高效运维 更多文章 阿里员工排查问题的工具清单,总有一款适合你! 听说,整个运维行业可能被干掉 分享图片 女运维工程师是一种怎样的存在 ? 网易数据库运维自动化演进与 AIOps 探索
猜您喜欢 DevOps工作三步法:第一步流动原则 (更新版) 2016年9月18日,今日全球能源资讯(纪念9.18,铭记历史) 应用运维标准化之——事件\/故障处理标准化 不要忽视C语言 R语言入门第十二讲:基础绘图(二)------plot与par函数(1)