微信号:infoqchina

介绍:有内容的技术社区媒体

第三只眼:聊聊大数据

2014-01-28 15:47 包研

许多人都能举出一两个大数据相关的例子,比如著名的纸尿裤与啤酒的故事,Google对流感爆发的预测。更多时候,大数据早已在我们身边了。

大数据可以被分为收集、组织、存储、检索、可视化以及数据分析,其核心是从数据中挖掘出价值。在《数据之美》一书中提出搜集数据要考虑个人的接受程度及动机,或称之为用户体验。我在媒体的过去10年间,时常需要通过调查问卷获得读者对内容的喜好。调查问卷往往有几十个问题,快速填写问卷至少需要5分钟,当然我们会通过抽奖的形式吸引读者参与调查。

设计调查问卷有很多学问,比如采用交互式表单,动态表单的长度,以及通过AB测试找到用户更喜欢的设计样式、标题。我相信这些技巧已经在数据调研公司和电子邮件营销公司使用。

调查只是获取个人数据的比较极端的形式,更多时候网站收集个人信息是在不经意间。每次电脑启动后,360安全卫士都会报告你的电脑启动速度的排名,用户可以通过优化来加速电脑启动。这时候往往有两个选择,“一键加速”或“手动加速”。对于大部分用户来说,“一键加速”是第一选择,而如果对电脑系统有一定了解的用户,可能会选择“手动加速”。通过用户行为的分析,可以进一步了解用户的知识水平、个性、收入水平等。

当用户完成加速后,会显示电脑的健康程度提升,这就像打怪升级一样,让个人产生成就感。用户很开心的解决了电脑的问题,企业也收集到了用户的行为信息,而且是在不知不觉间。

关于数据科学家,我脑子里总有一些模糊的概念。比如,这是一门新兴的科学,就像数学、物理、生物学一样,数据科学家平时在实验室里做实验,找到了研究数据的方法和规律,并总结出理论。最终,数据科学家将帮助企业更有效的研究数据。

至少在《数据之美》一书中,提供了真实的数据科学家的案例。2006年,Facebook一些学校中不是那么受欢迎,Facebook团队希望找到合适的人才来解决这一问题,他们找到了Jeff Hammerbacher,他是这么描述这段经历的:

当我在2006年2月参加Facebook面试时,他们正积极地期望找到这些问题的答案。我曾在大学学习数学,在华尔街工作近一年,工作内容是构建模型来预测利率、价格复杂的衍生产品和对冲抵押贷款池;有一定编程经验,GPA成绩“暗淡”。虽然我的背景可能不太理想,但是Facebook却给了我研究科学家的职位。

不妨从Jeff Hammerbacher的在Facebook的成功经历来看数据科学家具备哪些要素:数学基础、编程经验、构建模型获得数据的经验。不难看出,数据科学家是一个需要多背景知识和经验的岗位。后来,Jeff Hammerbacher去了知名的大数据创新公司Cloudera,这可能是他发挥数据科学家价值最好的地方了。

《数据之美》我还没有读完,每章都是一个大数据相关的故事,下期我将带来更多关于本书的体会和思考。


“第三只眼”:

主要由InfoQ编辑专门为微信公众账号自编自写的一个栏目,旨在表明编辑态度及表述平日见闻和思考,期望成为和读者沟通的桥梁。亦接受投稿:editors@cn.infoq.com


今日专栏作者:

包子(@Tony包研),InfoQ高级策划编辑,敲键盘,非代码,爱自由。


One More Thing:

2013~2014年度InfoQ读者深度调查火热进行中,点击【阅读原文】,完成调研可以查看最新的统计结果。结果分享到微博或者微信朋友圈,有机会获得精美礼品。


***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 Android ANR监控与分析 接口(API)测试 五一不劳动,开测让你坐享其成! PyTab 在线手册 - 《开发者头条》每日精选(1220) 野狗 Meetup 第二期,前端 H5 专场 | 7月30日中关村 3W 咖啡