微信号:infoqchina

介绍:有内容的技术社区媒体

Tera技术如何支撑百度百亿级实时搜索?|百度沙龙免费招募倒计时

2017-05-18 08:00 等你参加的

对于 Tera,很多人并不陌生,它是百度网页搜索部开源的一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。在 GitHub 社区里,Tera 占据超过 1.3k 的 star,是百度开源项目中最受欢迎的项目之一。

大多数人对 Tera 感兴趣,源于它是百度实时搜索背后的关键数据存储系统,其数十 PB 量级的数据存储和百万 QPS 的实时数据访问能力,支撑着百度搜索引擎的链接存储、实时索引筛选、实时用户行为分析等多个核心系统。

如果让你有机会接触百度网页搜索部门的技术大牛们,听他们介绍 Tera 的数据模型和整体架构;介绍 Tera 如何支撑百度链接存储、实时索引筛选、实时用户行为分析系统,对你来说是不是非常有价值?

那么机会来了,百度技术沙龙之 Tera 技术大揭秘将于本周六召开,讲授干货技术、推动技术进步一直是百度技术沙龙坚守的原则,Tera 主题沙龙也会让你不虚此行。

活动时间:2017 年 5 月 20 日 14:00~17:00

活动地点: 海淀区中关村创业大街 48 号 车库咖啡二层

活动日程:


 开场演讲:百度开源最新状况

讲师介绍:



谭中意, 工程效率部资深工程师,架构师顾问团成员,百度工作 6 年多,目前负责平台化相关的技术工作。曾在多个开源社区工作过,对开源社区有较多经验。

 主题一:T era 大型分布式表格系统的架构设计与实践

讲师介绍:


郑然,百度网页搜索部资深工程师。2009 年加入百度网页搜索部,在网页搜索部工作的 7 年时间里,一直从事百度搜索引擎的架构研发工作,先后负责过百度搜索引擎的大规模索引构建工作,大数据离线平台架构工作,微服务架构以及大规模在线服务治理等工作。目前主要做 Tera 分布式存储系统的研发工作。

演讲概要:

Tera 是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问,百度使用按行键、列名和时间戳全局排序的三维数据模型组织数据,使用多级 Cache 系统,充分利用新一代服务器硬件大内存、SSD 盘和万兆网卡的性能优势,做到模型灵活的同时,实现了高吞吐与水平扩展。郑然在演讲过程中会详细介绍 Tera 的架构设计,包括数据模型,整体架构,高可用技术和性能优化等内容。

 主题二、Tera 在百度搜索引擎中的应用


讲师介绍:


齐志宏,现任百度网页搜索基础架构 & 调研架构团队技术经理。曾供职腾讯,2012 年加入百度网页搜索,从事搜索架构相关的技术管理工作,目前主要负责百度海量数据存储系统相关工作。

演讲概要:

演讲重点介绍 Tera 作为核心技术,是如何支撑百度链接存储,实时索引筛选以及实时用户行为分析等多个重要系统的。

「 阅读原文 」,立即报名!

 
InfoQ 更多文章 Python速度虽然慢,但它工作效率高啊!不服? 左耳朵耗子:技术一定会让人失业,但我没有生不逢时 从淘宝到云端,阿里高可用架构演进实战 AI的未来是Cortana?微软AI负责人沈向洋:AI当前水平、技术难点、微软AI之路及如何面对人才挑战 扎根IT圈25年,他是怎么看云计算的?
猜您喜欢 (53) 剖析Collections - 算法 \/ 计算机程序的思维逻辑 首发丨360开源的类Redis存储系统:Pika 人气爆棚的Logo设计网站,你确定不进来看看? 史上最详细的Studio教程二来啦 中秋,致我不能陪伴的家人