微信号:infoqchina

介绍:有内容的技术社区媒体

QCon北京2015:自动化运维专题前瞻

2015-03-05 11:55 InfoQ




中国互联网行业经过十多年的蓬勃发展,到今天形成了从巨头到中小企业近百家上市公司,还有大量创业公司并存的繁荣景象,而运维领域经过十多年的发展,随着服务器和流量规模的快速攀升,在海量技术运营方面不断探索和突破,形成了很多可供参考的成熟海量运营案例和方法论;开源软件领域也从之前的偏重生产系统的软件如MySQL、Apache等发展到越来越偏重综合运维管理的解 决方案,如Docker甚至开源云平台等。


即将于4月23日~25日在北京国际会议中心举行的QCon北京2015大会,相应设置了“自动化运维”专题。本专题试图在前面介绍的这几个方面,为大家找一些业内成熟案例和探索,供大家学习和参考。


我们邀请了腾讯社交网络运营部助理总经理赵建春担任本专题的出品人。赵建春,腾讯T4专家工程师,技术运营通道顾问。04年大学毕业后加入腾讯,先后参与过交友、音乐、贺卡、QQ空间等业务的开发。06年后和团队一起专注于技术运维,负责腾讯社交网络事业群社区类Web业务的运维和建设工作至今。经历了业务规模从数十台设备到数万台设备的快速发展历程。在此过程中,他在运维环境标准化、业务Set化、运维自动化及多地分布式部署、内部云建设等方面积累了丰富的实战经验。


目前本专题的讲师已经全部确定,我们邀请了来自业界领先的互联网公司的7位运维专家,为大家分享他们的宝贵经验。到底有哪些专家,他们会分享什么样的话题呢,我们先睹为快。


“高效运维最佳实践”是InfoQ在2015年推出的精品专栏,由触控科技运维总监萧田国撰写,InfoQ总编辑崔康策划。目前已经发布两篇文章:《高效运维最佳实践(01):七字诀,不再憋屈的运维》,《高效运维最佳实践(02):员工的四大误区及解决之道》,您可以发送“OM”查看本专题内容。


在QCon上,萧田国将来现场分享《专业运维的最佳实践探索》

我们那么的努力,为什么业务部门对运维的评价往往没预期的好?运维人员应该怎么做,才能获得更多认可?运维人员更愿意关注个人技术能力的提升,及认为给公司带来了多大的价值,往往忽略了怎样更专业的做事情,以达到甚至超越公司和业务部门的期望,摘取个人和团队的”组织成果“。


本主题试图从业务部门的角度观察和审视运维,基于演讲嘉宾多年一线运维经验及管理学方法,侧重解决三个问题:即什么是专业运维(公司需要怎样的运维),为什么难以做到,及怎样专业化运维。希望引发大家思考,并有所裨益。


Docker问世两年左右,就引爆了社区,InfoQ也相应设置了Docker专栏,为Docker的学习和推广共享着自己的力量。Docker在企业界的应用状况、部署规模到底如何呢?我们邀请了腾讯数据平台部高级工程师罗韩梅她将分享Docker在腾讯的应用状况。她的演讲是《Gaia——万台规模的Docker应用实战》

作为底层的资源调度平台,Gaia(盖娅)能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了资源管理逻辑。Gaia提供高并发任务调度和资源管理,实现集群共享,具有高度可伸缩性和可靠性,能够支持MR等离线业务,甚至是实时计算、在线service业务。通过一系列的优化,Gaia可以支持到单cluster万台规模,毫秒级的作业下发效率以及更加完善的资源管理,同时,我们引入了弹性内存管理,增加了网络和磁盘带宽管理。


Docker轻量、可移植、跨平台的特性将彻底改变程序的交付方式,并充分释放了虚拟化的威力,大有掀起一场容器革命之势。云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”——Gaia。通过Docker on Gaia实现的Docker 云,将会让Docker的能量发挥到极致。


面对线上故障,我们是疲于救火,还是尽量防患未然,曲突徙薪?搜狗高级经理房秀丽将分享《从“救火”走向“防火”》

是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。


本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。


业务场景复杂多变,系统平台纷繁复杂,运维团队应该如何应对?我们邀请了赶集网运维平台负责人、自动化运维专家崔华,分享《赶集运维之九天探月》

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重;从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天;我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。如何目睹起飞的过程? 如何清晰地看到那一轮明月?希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。


在云计算时代,数据库的运维有何挑战呢?我们听听阿里巴巴高级数据库专家陈长城(花名天羽)的分享——《云计算时代的数据库运维体系》

通过对比企业数据库运维模式和云数据库(以下简称RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。


运维体系建设首先是为了稳定性,最终追求的是用户体验。为了提高用户使用RDS的体验,我们开发了一些独有的功能,我将重点介绍CloudDBA的设计和实践,CloudDBA的想法源于我们一直希望把DBA的经验产品化,今天阿里集团有一大批经验丰富的DBA,但在云计算的用户是没有的,我们希望将阿里DBA丰富的线上经验输出给广大的RDS用户。CloudDBA是阿里基于多年数据库运维经验开发的自动化工具,把DBA工程师的一些基础工作如SQL优化、表结构优化、空间使用优化等通过系统给用户专业的建议,由用户决策并一键执行,将为阿里云数据库服务(RDS)的用户带来全新的便利体验。其中CloudDBA诊断引擎项目,专业DBA自动SQL优化服务已经通过云数据库管家在RDS控制台推出,我也将分享产品设计和推出过程的一些感想。


最后简单介绍下RDS对外开放的API,运维服务是可以由第3方提供的,行业云用户需要更多深入定制的运维服务。


刚刚过去的除夕之夜,对微博平台也是一次大考。我们邀请到了新浪微博平台运维架构师王关胜,他将分享《新浪微博平台运维自动化之路》

11年初,新浪微博进入快速发展期,同时也开启平台化的进程,服务器设备,及人力成本大量增加。业务的发展,让我们意识到运维自动化的必要。于是开启探索之路,本次主题就其中关键部分进行分享。


除了线上系统的自动化运维,底层的数据中心如何通过自动化运维实现支撑,也是一个有意义的话题。我们邀请了百度系统部高级项目经理陆川,他将分享《百度数据中心自动化平台演进过程》

一、主题摘要:

1.背景(数据中心自动化的定义(机器运维、网络运维,不包含业务运维,如apache、mysql),百度数据中心规模发展(几千台——数十万台))


2.百度数据中心自动化运营平台发展历程(流程系统->半自动->全自动)


3.百度数据中心自动化运营平台架构设计(资源管理平台、自动化平台、配置管理数据、监控平台、数据统计分析平台)


4.百度数据中心自动化运营平台未来发展(简化、开放、大数据分析)


二、听众受益:

1.了解超大型互联网公司数据中心自动化运营平台的发展历程,有助于中大型互联网公司平台研发团队开拓思路,少走弯路


2.了解大规模数据中心自动化运营平台、存在的问题和解决方案;


3.了解数据中心自动化运营平台如何为公司、业务创造价值;


4.了解数据中心自动化运营平台未来发展的趋势。


更多精彩,尽在现场。现在点击“阅读原文”报名,可享9折优惠。


 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 机器学习—海量数据挖掘解决方案 总结一下我在推荐系统里踩过的那些个坑(实践过程) 5年内改变世界!VR技术的威力有多大? Butter Knife快速开发 韦恩到蝙蝠侠,就差了一个HSIAR