微信号:ArchSummit

介绍:ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会.2018年深圳站大会演讲时间为7月6-7日,深度培训时间为:7月8-9日,敬请关注.

滴滴:如何实现海量数据下的智能监控与故障定位?

2018-05-04 12:01 李培龙
随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。

监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡。

随着系统复杂度提升,监控报警后故障的定位难度越来越高,定位速度缓慢,我们借鉴 Google 的 Dapper 在滴滴落地了系统调用链路追踪系统,同时融合了滴滴自身的司机、乘客与订单的业务链路追踪技术,使得业务与系统故障时可以快速的进行数据关联与追踪分析,精准定位问题根源,整体故障定位效率大幅提升。

演讲大纲

  • 滴滴的监控体系技术架构演进;

  • 基于机器学习的异常检测实践;

  • 基于链路追踪的故障定位实践

听众受益

  • 海量数据场景下,如何为监控系统进行技术选型;

  • 为降低运维成本,如何借助机器学习技术进行海量指标的异常检测;

  • 如何建设业务与系统的链路追踪机制以提升故障定位效率

视频



本视频来自滴滴出行的质量部高级专家工程师和架构团队负责人李培龙在 ArchSummit 的分享 。公众号后台回复关键词「滴滴」下载完整演讲 PPT。

节选 PPT


  公众号后台回复关键词「滴滴」下载完整幻灯片。

作者介绍

李培龙,滴滴出行质量架构团队负责人

负责滴滴的分布式调用链追踪系统、问题定位系统、基于机器学习的异常检测系统、日志数据及计算服务平台和全链路压测平台。

加入滴滴之前任职于百度质量部,负责业务监控、问题定位、分级发布等稳定性保障技术方向。


ArchSummit 2018 深圳站
  ArchSummit 日程出炉 &  8 折报名仅剩 2 天

本次大会邀请了滴滴地图事业部高级专家朱智青前来分享《出行平台地图引擎架构实践和 AI 技术应用》。

大会其他演讲嘉宾如下:

  • Apple:机器学习专家

  • Google:推荐系统负责人

  • Facebook : Tech Lead

  • Pinterest:大数据及机器学习平台负责人

  • Netflix:首席软件工程师

  • IBM:高级技术委员会成员

  • 手机 QQ:运维负责人

  • 微信:流量实验 X 平台负责人

  • 天猫:智慧门店架构师

  • 微博:算法总监

  • 余额宝:移动首席架构师

  • 微众银行:区块链首席架构师

  • 前特斯拉 视觉深度学习负责人

  • ...

目前 ArchSummit 8 折报名仅剩最后 2天,识别二维码或点击 阅读原文 可了解大会日程。

PS:联系 小助手豆包 可获取更多优惠(微信:aschina666,或致电 010-84780850)。



 
ArchSummit 更多文章 罗辑思维首席架构师:Go微服务改造实践 微信存储系统如何应对每分钟百亿级的挑战? 双11服务绝对主力:阿里小蜜机器阅读理解技术揭秘 1张图片 如何成为技术人中 3% 的领导者
猜您喜欢 Kubernetes 新概念 “Initializers”解析(中):能让你为集群编写插件的新模型 Kubernetes健康检查如何做?官方推荐教程 ZStack--通过Ansible实现全自动化 2017 年 Android 曲折的求职之路【6.13 热门分享回顾】 秘密:从程序员到领导者的微妙之处