微信号:HuashengPeng001

介绍:运维体系建设心得,自动化(监控、配置、平台建设等)、运维开发、应用运维(变更、故障等)等,欢迎各位运维同业多多拍砖,共同进步.

对监控基础建设几个问题的思考

2016-01-16 19:16 CGB 彭华盛

新核心项目顺利完成,下午在COSTA待了几个小时,思考了监控基础建设的几个问题:

1、监控的定位是什么,只是报警系统,还是需要包含数据化、可视化、平台化、智能化?

2、企业里多个监控工具,怎么进行统一的整合规划,实现互补呢?

3、有些大家都觉得应该要有的监控,为什么总能在故障发生后发现漏配置了?

4、监控指标应该深入到什么程度,要深入到服务的可用性,还是要局部或个别客户或功能的可用性?


以下从运维保障简要整理下对上述4个问题的想法:


1、监控的定位是什么,只是报警系统,还是需要包含数据化、可视化、平台化、智能化?

事件预警是监控系统的立足之本,是一个持续完善的过程,“更快、更准确、更全面的发现并定位事件”是监控的重中之重的目标,这的过程需要不断的完善监控指标与指标的落地。

接下来就是更加深入的对客户体验、应用、服务器系统软件、网络设施、机房进行分析,监控的深入程度依赖于监控数据采集的范围,数据分析的程度,是监控数据化的过程。

监控有了基本全面且深入的预警后,监控需实做的解决运维遇到的问题,解决问题第一要素是监控要采集足够的、标准化的数据(数据采集面与数据格式标准另行分析),第二要素是把监控采集的数据实现数据消费,这是监控可视化的过程。以负责服务器的系统管理员为例,监控要将采集的资源情况通过数据分析,为系统管理员从整体到细节的容量评估情况;以负责网络的网络管理员为例,监控需要为网络管理员提供网络流量分布情况,网络设备可用性情况;以负责应用的应用管理员为例,监控需要协助应用管理员分析应用的应用性能、应用服务的可用性、可靠性。上述这些都需要监控为运维人员的决策提供数据分析的可视化支持。

同时,监控的可视化还要为运维人员提供事件预警后的事件定位、应急处理、问题分析的可视化的流程支持。

实现可视化后,监控需要考虑自己在运维体系上的位置,监控不是独行侠,如果说CMDB是运维自动化里的大脑,那么监控将是神经系统,驱动运维体系统中各个运维工具的行动,这是监控平台化的过程。

平台化的过程中,也是监控智能化的过程,监控根据己定的规则实现无人值守的事件自愈的过程。

监控的实施路径



2、一个企业里这么多监控工具,怎么进行统一的整合规划,实现互补呢?

随着企业的发展,各种监控工具也会不断涌现,但在监控工具涌现失控前,需要考虑工具间如何互补,要实现互补,重中之重是做好监控体系的层次划分,为每个层定义好各层在监控体系中的位置,定义监控指标、根据监控指标定义好要采集什么数据,如何采集数据,采集数据后如何使用,如何为整个运维体系使用,实现互补关系。


3、有些大家都觉得应该要有的监控,为什么总能在故障发生后发现漏配置了?

先从4个问题来看:

  • 监控指标是否完善

  • 有没有要求指标的100%覆盖率

  • 覆盖率的要求是否确实可以落地

  • 100%的覆盖率是否从技术默认设置,如果技术无法默认设置,能否从技术上主动发现

如果前3个总是回答是肯定的,那问题初步定位在落实监控配置的运维人员身上,如果3个问题有任一个问题是否,则需要监控本身从监控管理去优化。

第4个问题是监控系统的问题,太过个性化会导致监控指标实施落地失控,这也是为什么苹果的用户觉得IOS操作系统够用、好用;安卓的用户反而觉得安卓操作系统软件不够用(尽管软件更多)。监控系统要尽可能让需要覆盖的监控指标从技术上落地,减少对运维人员主动性上的依靠,同时监控系统要快速从技术上响应新的监控指标的落地。


4、监控指标应该深入到什么程度,要深入到服务的可用性,还是要局部或个别客户或功能的可用性?

这个问题在第1个问题己有回复,监控深入的程度是在不断完善的过程,从硬件、系统、应用,再到客户,只要不符合预期都属于监控深入的范围,每个层要不断完善各个层的监控指标,需要监控项目的人以及监控系统使用的人共同完善。


 
运维之路 更多文章 灰度发布:让运维拥抱变更 应用运维配置库初探:让应用运维更有序 CMDB初探 立体监控 自动化工具介绍 之 ansible(大量例子,篇幅很长)
猜您喜欢 Android和iOS开发中的异步处理(一)——开篇(发布GitHub源码) 史上最资深网瘾宅男逆袭,临终启动 Pokemon Go 新一代iPhone:要比iPhone 6 Plus更大 2016年最值得关注的移动端APP设计趋势 (33) Joda-Time \/ 计算机程序的思维逻辑