微信号:OpenFalcon

介绍:互联网企业级监控系统实践

【活动报名】CCF TF 02:与25家Top技术团队专家共论AI时代的互联网运维

2017-09-13 15:34 中国计算机学会

“技术团队自己的顶级交流平台”
中国计算机学会技术前沿研讨会

CCF TF第2期
主题 人工智能时代的互联网运维

2017年9月17日 北京



CCF TF(技术前沿委员会,Tech Frontier Committee)是中国计算机学会为企业界计算机专业人士创建的企业间常态化合作交流平台,CCF TF创始委员由Intel、LinkedIn、Microsoft、爱奇艺、百度、滴滴、方正、瓜子、华为、京东、链家网、联想、蚂蚁金服、美团点评、摩拜、奇虎360、搜狗、曙光、腾讯、网易、微博、小米、携程、新浪、中兴等25家知名企业的技术团队负责人(CTO、技术副总或研究院院长)担任。另外还组建了架构、安全、前端、系统与运维、大数据、智能交互、工程文化与职业发展等7个SIG(Special Interest Group)。CCF TF将以SIG为主体举行丰富的交流活动。


互联网经过20年的蓬勃发展,已不知不觉渗透到了日常生活中,成为了水电煤一样的国民基础设施。与此同时,互联网服务的规模也越来越大,用户数从百万到亿级,而系统依赖更是成千上万,日益复杂。互联网服务的稳定运行,不仅关系到企业的切身利益,更是与国计民生息息相关。这些都对系统运维团队提出了前所未有的挑战。


本次活动邀请了百度、滴滴、美团点评、京东、曙光等多位资深专家,共同分享和探讨互联网运维的最佳实践,包括AI在运维领域的最新应用和发展,帮助企业CTO、架构师、技术主管及工程师更好的开展服务稳定性保障工作,并把握AI在基础服务保障领域的新动向。

系统与运维SIG暨会议主席 


章文嵩 滴滴出行技术高级副总裁,2016年加入滴滴,出任滴滴出行技术高级副总裁,兼任滴滴出行工程技术文委员会主席。同时章文嵩也是CCF技术前沿委员会主席。LVS开源项目创始人。曾任阿里副总裁和阿里云CTO。

会议执行主席

来炜,滴滴出行运维总监。2015年加入滴滴,担任运维总监。国内最流行的开源企业级监控系统Open-Falcon的创始人和社区负责人。2008年毕业于中国科大,曾任职百度运维部和小米。





特邀演讲 


报告主题1:百度智能运维实践之异常检测


主题简介


在百度设计和实现智能监控系统,面临着巨大挑战:业务种类、特性繁多,流量、收入规模大、影响面广,稳定性、时效性要求高。本报告基于监控系统中的一个重要特性——异常检测介绍百度如何准确、高效地进行10亿级的运维时序数据分析:


1. 异常检测的算法介绍和百度的调优实践

2. 大规模时序数据的采集-存储-计算架构


分享嘉宾


王博 百度资深工程师,2014年加入百度,先后参与异常检测系统的设计开发、报警收敛、故障诊断等相关工作,目前是异常检测系统的技术负责人。



姚睿尧 百度高级研发工程师,2015年硕士毕业于北京大学并加入百度,负责百度运维大数据存储平台的设计和研发,致力于追求大规模存储系统的高性能和高可用。


 

潘成龙 百度高级研发工程师,2015年硕士毕业于中科院计算所,当年加入百度,负责监控系统的数据采集和汇聚计算系统的设计和研发。

报告主题2:大型数据中心运维实践和趋势分析


主题简介


近年来随着互联网行业的发展,数据中心数量激增,数据的规模和模式不断刷新纪录。这个后期的运营和维护工作带来了极大的挑战。

 

当前比较流行的做法是人工运维与智能运维相结合。把一些常见、耗时的值守类工作交给智能运维。而人工运维更多的集中在突发事件和新问题的处理以及新技术的应用等方面。

 

本次分享,主要探讨以下方面:

1. 数据中心的发展历程与挑战;

2. ITIL 、ITSM与IT运维;

3. 自动化运维的实现与趋势;

4. 银行、电信、高校等特定领域数据中心运维案例分析。

 

分享嘉宾


吉青 曙光高性能产品事业部副总经理,中国科学院化学研究所博士,先后在法国国家科学研究中心和美国麻省理工学院担任博士后研究员。2015年加入曙光,任高性能产品事业部副总经理,并主持在线运维EasyOP的运营和研发等相关工作。截止2017年7月,EasyOP已经接入100+个数据中心,服务近万个节点。

报告主题3:海量数据场景下的智能监控与定位


主题简介


探讨海量数据场景下,故障的实时发现和精准定位体系建设。


该报告由三位资深讲师分别发表演讲,内容主要包括:

1. 海量特征指标采集;

2. 高效的时间序列化存储;

3. 实时报警;

4. 基于机器学习的故障检测;

5. 基于trace的精准定位等能力的建设经验。


分享嘉宾


李培龙:滴滴出行高级专家工程师,2015年加入滴滴出行,组建质量架构团队,负责滴滴的Trace调用链追踪与问题定位系统、基于机器学习的异常检测系统和全链路压测平台。


聂安安:滴滴出行资深软件开发工程师,主要从事运维平台开发、监控体系建设等相关工作,Open-Falcon开源社区核心Committer之一。


贺百灵:滴滴出行高级软件开发工程师,2015年加入滴滴,先后负责LBS、分抢单策略、出租车反作弊系统的测试工作,现阶段主要负责智能运维方向异常检测相关算法的研究与实现。

报告主题4:故障定位系统「雷达」的设计实现


主题简介


随着美团点评业务规模快速增长,业务及服务间调用越来越复杂,一个基础服务或设施的异常可能会导致大量上游依赖业务异常,同时伴随着异常引发各类监控的告警风暴,给快速定位故障根源快速止损处理造成了极大的不便。所以,我们设计和开发了故障雷达系统,以便遇到故障时可以快速找到故障根源进行处理。


本次演讲主要介绍root cause自动定位系统「雷达」的设计实现。


演讲嘉宾


许亚南 美团点评运维部自动化开发工程师,美团点评运维自动化开发团队核心成员,致力于自动故障分析、智能监控等系列产品的设计和开发。

报告主题5:大规模流量接入系统的设计和实践


主题简介


随着京东业务规模的快速增长和全站https落地实施,6.18/11.11 用户流量峰值给流量接入体系的性能和高可用性建设带来了更多挑战。在这个过程中,我们逐步构建和完善了智能DNS系统,高性能反向代理和负载均衡,数据分析展现,公网流量调度等配套系统平台,协同支撑大规模流量接入和调度。本次主题将介绍这套流量接入平台构建实践以及相关问题和解决方案。


分享嘉宾



谢文辉 京东技术保障部架构师,2016年加入京东,负责技术保障部流量接入平台设计研发,构建支撑京东6.18极端峰值流量的接入架构。

时间:2017年9月17日

地点:中科院计算所一层报告厅


一、日程安排

 9:00 开始

 9:10 主题1: 百度智能运维实践之异常检测

 10:20 休息

 10:30 主题2:大型数据中心运维实践和趋势分析

 12:00 午餐

 13:30 主题3:海量数据场景下的智能监控与定位

 14:30 主题4:故障定位系统「雷达」的设计实现

 15:40 休息

 16:00 主题5大规模流量接入系统的设计和实践

 17:10 Panel

 17:40 结束

 

二、缴费标准

企业团体会员单位享受免费名额,A类:4名,B类:2名。咨询电话139 1065 9011

CCF会员价1000元,非CCF会员价1600元(含一年会员资格)


三、参会方式

长按下方二维码或点击【阅读原文】即可报名




四、会议联系方式

联系人:余遐

电  话:010-6260 0321-22/139 1065 9011

邮  箱:tf@ccf.org.cn








 
OpenFalcon 更多文章 Open-Falcon 中的交换机监控 [幻灯片下载]Open-Falcon-v0.2发布会 GITC2017上海站完整议程出炉 有福利赠票 [演讲文字实录] Open-Falcon in SREcon17 Asia Open-Falcon新版本发布会
猜您喜欢 如何入门python爬虫? 我的2016年终总结 2013年中国联网电视销量达2397.0万台,未来两年将迎来高速发展 在公司里如何写好一封电子邮件 搜索编程相关信息的小技巧