微信号:infoqchina

介绍:有内容的技术社区媒体

Haystack:GitHub的异常监控工具

2015-08-03 11:38 InfoQ

对于GitHub而言稳定性和性能是非常重要的,但是和其他大部分软件应用程序一样,它也会产生异常,从Git超时这种系统级的错误到JavaScript错误这种应用级的错误都会发生,这就需要一种方式能够在错误发生的时候尽快地识别它们,然后寻找最合适的团队或者个人去处理,最终实现错误的快速响应。而Haystack就是GitHub应对这一问题的钥匙。

Haystack是GitHub内部的一个开发了6年的异常追踪程序,它能够持续地监控所有应用程序的健康状况,同时具备异常探测功能,GitHub使用它来监控几乎所有的面向用户的特性,包括桌面应用程序。下面是Haystack的一个典型应用场景:


首先,当某个工程师通过chatops部署了新程序的时候,Hubot就会向其推送一条包含异常流水(firehose)链接的消息,通过该链接工程师能够查看新程序部署之后产生的异常信息。


之后,Haystack会通过一些简单的规则进行异常探测,防止不当部署和典型错误行为的发生。通过获取最后一个小时异常数的直方图Haystack能够判定最后时刻的异常数是否超出了配置的标准分数(z-score)。


如果发现异常数有提高,Hubot就会发送一个消息通知最后一个部署程序的工程师进行处理。



在发送的消息中还会包含一些对应用程序当前状态的简要分析,工程师可以通过Haystack的仪表盘查看与每条分析内容相关的详细信息,进而不断追溯并定位问题出现的原因。


最后,如果工程师能够解决问题,他们可以创建一个拉请求(Pull Request)或者问题,并将链接拖放到Haystack让其自动地创建问题与追踪信息之间的交叉引用,以便于工程师之后在这些信息之间来回跳转。另外,如果将来类似的问题再次发生,那么工程师能够通过Haystack查看之前对该问题的讨论以及解决的方法。


总的来说,GitHub能够通过Haystack了解系统发生了什么事情,什么时候发生的,应该通知哪个团队,应该从哪入手解决问题。该系统从2009年开始就已经存在了,在最近几年里GitHub又对其做了大量的改进,但是由于很多改进与一些其他的内部应用程序紧密相关,所以到目前为止Haystack依然无法开源,即便如此GitHub的这种问题处理模式依然有值得借鉴和思考的地方。


投稿请联系:lillian@infoq.com

版权归属InfoQ,禁止私自抄袭转载。

回复关键词React | 架构师 | 运维 | 云 | 开源 | 物联网 | Kubernetes | 架构 | 人工智能 | Kafka | Docker | Netty | CoreOS | QCon | Github | Swift | 敏捷 | 语言 | 程序员


有话想说?!戳“写评论”👇

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 【深入浅出jQuery】源码浅析--整体架构 个人隐私如何被泄露、贩卖,女大学生被骗背后的黑色产业 和拖延症死磕到底 Double你的年终奖—程序员看这里 调度系统,Crontab的格式