微信号:infoqchina

介绍:有内容的技术社区媒体

QQ安全中心的两小时Bug:快速响应+快速部署的经典案例

2013-03-28 19:20 InfoQ

3月24日晚11点22分,@左耳朵耗子 想改QQ密码,触发了QQ安全中心的一个bug,于是发微博吐槽之。大家初步分析这是一个比较低级的错误,@翁雨键 在评论中认为:


目测是因为#是非法字符。程序员偷懒跟密码长度不对用了同一个错误提示,QA不知道有这样的规定设计测试用例没覆盖到,PM/UE太junior只关心正常的path没给错误用例设计提示。


然后过了半个多小时,@腾讯QQ安全中心 的运营人员发现了这条吐槽,并进行了反馈;又过了一个多小时,@腾讯QQ安全中心 又回来这条微博下评论,说bug已经改好了。


此消息一出,腾讯QQ安全中心背后的运维、响应、部署流程立刻引起了大家的关注。当事人陈皓对腾讯这次的响应速度进行了高度评价:


只有高度自动化测试+程序员完全自主才会有这样高效的流程。


在看到这条消息的时候,InfoQ编辑正好在跟腾讯互联网产品运维副总监赵建春(Coati)沟通QCon北京分享的事情,便问他腾讯在快速响应、部署这方面是怎么做的。Coati表示,虽然QQ安全中心属于基础运维部,而自己负责的范围属于应用运维,但根据他跟同事的沟通,他们在运维响应方面的很多处理流程是差不多的,比如:


一般我们推送新版本,大体分为三级:一种是大版本的更新,涉及到特性增减改动等方面的,一般每周会做2-3次,而且会选择周一到周四之间做推送,一般不在周五做推送;另外一种是运营性的版本更新,这个更新频率不一定。这两种都是需要QA参与的。第三种是bug修复,这里也分级别,比如外网对bug进行快速修复,大的bug是需要走灰度的,而小的bug,比如只是涉及到界面、体验相关的,是可以免测试的。


这次密码功能bug的修复,因为涉及到程序逻辑,所以上线之前还是要经过测试的。不过这并不是说测试人员就一定要在公司,我们可以VPN登陆,从家里也可以随时响应的。


Coati表示会在QCon北京上的分享介绍更多的细节,包括:

  1. 腾讯的互联网产品运维这块是如何划分领域的?

  2. 运维和开发有明确的界限么?平时如何协作?

  3. 代码部署和代码审查都使用什么工具?发布流程如何?发布的频率如何?

  4. 应用运维的监控分为几个层面?信息源来自哪里,监控的力度、频率如何?

想了解腾讯运维体系的同学们,请不要错过Coati在QCon北京的分享啊。


点击“阅读原文”查看更多内容并吐槽吧。

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 创业不等于职业生涯加成 工程化你的Python项目 Weex Android 文字渲染优化 代码执行的效率 【干货】MySQL5.6配置同步复制的新方法以及常见问题的解决方法