微信号:infoqchina

介绍:有内容的技术社区媒体

Presto即服务:AWS上的交互式SQL查询

2014-02-20 17:28 InfoQ

作为Facebook公司的一项可用作在PB级规模的数据上执行交互式SQL查询的技术,Presto现在已经迈出了步入主流应用的第一步。大数据创业公司Qubole日前发布了与Amazon Web Services集成的Presto即服务alpha版本。


这套新系统与目前已经集成的Hadoop、Hive以及Pig,都属于Qubole公司不断发展壮大的平台Qubole Data Service(QDS)中的一部分。由于Presto原生集成了Hive、Hbase和关系型数据库,因此它的这种特性使得它非常适合这类管理服务。作为Qubole公司的联合创始人,Ashish Thusoo和Joydeep Sen Sarma曾创建了Hive,并且把HBase带到了Facebook,因此对于他们来说,这一步看起来顺理成章。这项服务的一个主要用例就是通过查询Hive表以取得存储在S3上的数据,这样一来QDS的用户就可以很方便地基于这些表执行查询操作了。Qubole目前的服务都是以AWS为中心构建的,原因正如Ashish所说,“这是由我们目前的需求决定的”。Qubole将自己定位为昂贵的数据仓库系统的替代品,就像Qubole的工程副总裁Shrikanth Shankar所说,“对于那些之前依赖昂贵的商业技术进行快速分析工作的用户来说,Presto将为他们带来巨大的价值。”


在大数据领域内,Presto实际上是一项相对较新的技术。Facebook的这个项目开始于2012年秋,并在2013年上半年正式上线,最终在2013年11月完全开源。Presto背后所使用的执行模式与Hive有根本的不同,它没有使用MapReduce,这一点与其他SQL查询引擎(例如Cloudera的Impala和UC Berkeley的Shark)很像。其中的关键是所有的处理都在内存中完成,正如Ashish所说,“Presto更适合运行在配有更大内存的实例上。”这也是为什么Presto能够获得比Hive低几个数量级延迟的主要原因之一。但是由于Stinger项目给Hive 12带来的性能改善,因此Presto与Hive 12间孰优孰劣目前尚且不明,正如Ashish所描述的一样:Hive肯定也会变得更快。我们已经进行了一些初步的测试,很快就会在博客中公布测试的结果。


就其可扩展性方面来说,应用在Facebook的300PB规模的数据仓库系统中的这一事实充分证明了它的可靠性。另外其他一些公司,例如AirBnb和Dropbox,也都开始采用Presto,“在我们的绝大多数用例中,它都比Hive要快一个数量级”,Dropbox的线上分析经理Christopher Gutierrez如是说。


伴随着Qubole这个新服务的发布,Presto社区将会进一步发展壮大,就连Siva Narayanan这样的Qubole开发者都在Presto群组中表示他们“打算做Presto王国中的好市民,并且期待着为Presto项目的主干贡献补丁和功能”。凭借着GitHub上超过2000颗星和350次的分支,Presto项目已经变得比其他类似的并且更早的开源项目(例如Impala)更为流行。


***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************


 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 什么样的人当不好程序员? 全球最作死的发明家鼓捣出一辆悬浮自行车 还真飞起来了! RestQL:现代化的 API 开发方式 IBM,谷歌,微软......企业的经典段子,你们知道几个? 安卓App热补丁动态修复技术介绍