微信号:computress

介绍:算法女博士及她的小伙伴的思维乐园.关注数据挖掘,机器学习,IT技术,互联网思考,程序员身心.

大数据的核心是”大“么

2015-08-13 00:01 飞林沙

近两天不幸陷入了一个“撕逼”的模式,最近写的两篇文章都是针对他人的文章来做一个驳斥,或者至少是一个观点的对立。但是我也突然发现,借着别人的文章再进一步去写似乎容易了很多。


这一篇其实针对的是MacTalk的作者迟大大最近的一篇文章《每个人都应该懂一点大数据》,在文章中的第二自然段,抛出了作者对于大数据的看法,原文如下:“如何定义大数据呢?简单来说,就一个字,大!大到什么程度?大到超出了常用软硬件在可接受的时间内位用户收集、分析、和处理数据的能力。”真的是这样么?大数据的定义如此么?实际工程是如此么?


关于大数据的定义,已经被无数人谈了无数次了,大数据的概念是4个V,分别是Volume, Velocity, Variety, Veracity。有人说按排序来说,第一个V恰恰是Volume啊,从字面上理解”大数据“不就是大么。其实恰恰相反,如果让我给大数据下一个简洁的定义,或者说从4个V中挑出一个的话:什么是大数据?对于工业界来讲,最重要的真的不是Volume,而是Variety(多样性)。


曾经在豆瓣的一篇吵架文里,我写过这样的一个自然段:与一些学术界的学者相反,我却更愿意对大数据的范围做一下扩充,好多人平时都嚷着我们的数据量太大,不利于我们做分析,那么我们说做传统的数据挖掘时,50%的时间都用在了数据清洗上,那么当我们对Big Data做过数据清洗以及数据抽样之后,往往剩下的也许就真的只有GB的级别了。那么我愿意将Veracity和Volume做一个整合,我认为Big Data真正应该满足的只有两点,1. 多样性 2. 无偏的有意义数据。而这两点是我认为大数据时代相较于之前的Data所不同的地方,因为之前的数据往往产生的是一个有偏的数据,或者说是单一类型的数据记录。


我们也来思考一下Big Data这个定义是何时起来的吧,记得我11年入职豆瓣的时候,那个时候还没有大数据这个概念,我的职位还叫做算法工程师/数据工程师,但是突然在2012年的时候,Big Data的概念突然兴起,我的价格在这几年突然水涨船高变成了大数据工程师。那么我们想想这几年究竟发生了什么显著的变化。2012年,移动互联网大规模兴起,对于移动互联网和传统Web典型的区别除了使用上相对的高频外,在于能够享有用户的唯一ID(iMei, IDFA, 手机号),取得用户更具体的信息,而不仅仅是使用记录,还包括了地理位置、行为轨迹等等。随之而来,Open Data越来越多,各家再不用蛋疼地去建立一套自己的账号体系,而是可以通过标准的唯一标识将各家的数据去购买、合作产生多样性的大数据,最终形成类似欧盟、美国等发达国家的Data Market。 这才是近年来大数据越来越火的原因。


最后结尾,借用一句话,大数据的大是没有意义的,反而是个缺陷,因为大是个消耗品,而多样性才是真正有意义的事情,因为我们可以借助于多样性来产生更多的业务价值,这也是我眼中大数据的真正意义。

 
计算姬 更多文章 没有干货,只有吃货 [上] 此文征名 如何用一周时间学习Rails(小白文) 从虚拟化到SDDC
猜您喜欢 再议携程Android动态加载框架DynamicAPK 上门服务O2O里面的那些坑 【圣诞送礼】碉堡的移动运营神器,信鸽向辛苦一年的开发GG致敬啦! PHPCodeLock:微盾PHP加密专家 手把手教你Spark&Mongodb『附源码下载』