微信号:infoqchina

介绍:有内容的技术社区媒体

Domino:数据科学即服务

2014-04-18 17:21 InfoQ

Domino是一个用于数据科学的PaaS(平台即服务)云计算平台,人们可以使用Python或R语言在这个云平台上做数据分析工作。

据 Nick Elprin(Domino的创始人之一)所说,Domino 让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施:

“我们认为,随着数据量的增加和分析技术的越来越成熟,现代数据分析工具在易用性方面已经滞后,并且访问科学领域数据上还有一些不必要的限制。”

Domino平台上的三大支柱功能:

1.接到云部署和执行:Domino允许在EC2上运行现有的代码(Python、R、Matlab、Julia、shellscripts等等),以承载长时间运行或资源密集型任务。该系统还关注云端底层管件功能,比如: AMI管理,启动和停止机器,将数据安全传输到另一机器上,再将结果安全返回。

2.数据科学的版本控制:Domino团队计算过,类似于Git之类的分布式版本控制系统并不足以应付分析工作流,因为它们没能力处理大数据集,并且不能在输入和结果(例如图表、数字)间建立联系。Domino会自动保持整个项目的快照,目前最高至40GB,这样就很容易追溯整个工作的历史,包括代码、数据和结果。

3.协作:类似Github,Domino也可以用于合作开发项目。合作者可以查看、编辑并运行这个项目。Domino会检测冲突,运行结束后将更新的结果发送通知,并且它还有个内部笔记,方便讨论团队工作进展。

用随收随付的方式,Domino的定价范围从免费入门到每月付费订阅。正如InfoQ从 Nick Elprin那里了解到的,尽管这个平台还处于发展早期,但是它已经被各个科学领域的从业者所使用: 从学者(如为研究分析了数千张图片的生态学家)到数据科学顾问(把它用于Kaggle比赛),以及市场营销公司(帮助客户更好定向投递)。

***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 跨云管理难?AWS是这么玩的! 5G内存共100本运维书籍免费下载|网络技术、数据库、操作系统、安全技术…… 拒绝透支加班,从我做起! 520被虐狗?美女鼓励师来解救你! 安装包立减1M--微信Android资源混淆打包工具