微信号:bit_tiger

介绍:“有趣,有用,有效”.刷项目,做实战,捅破技术的那层纸.

【数据科学主题开头篇】数据科学家与厨子的故事(上)

2016-07-23 02:15 一笼小笼包

笔者有个朋友王先生,王先生特别郁闷,因为最近他和他媳妇争辩起来,重点是他争辩不过他媳妇。事情的由来是,王先生和他媳妇说起他的职业数据科学家多么地高大上多么地不容易,从数据科学的前世说到数据科学的今生,特别地能说,充分发挥数据科学家能说会道的特点。而王先生的媳妇王太太问了一句“那和厨子有什么区别呢(王太太是位厨师)?”一下子把王先生说懵了,而且还特别有理有据。那么,我们来看看他们各自的说辞。
数据科学的前世
王先生说道,从前有门学科,它叫统计,通过分析数据,从而为验证假设、支持决策等多方面提供了依据。是不是听起来就很有“数据”的味道。没错,媒体喜欢包装概念,数据科学(Data Science)就是从数理统计的再包装发展起来的。那它又和传统的统计有什么不一样呢?我们看一下一个很经典的图。



这图非常一目了然。和传统统计相比,数据科学(Data Science)= 数学统计(Math & Statistics Knowledge + 计算机专业技能(Hacking Skills) + 专业领域知识(Substantive Expertise)。

那么,它们只是单纯地叠加吗?统计是离不开应用情景的应用学科,最早出现的也是数学统计与领域知识的自然结合,譬如在生物上要做实验分析数据,在金融上要根据数据制定交易策略。那么,为什么现在却强调它们与计算机的结合而产生一个新名词“数据科学”呢?这时就要提到比数据科学早几年出生的现在走在大街上也能提到的“大数据”。

时代在发展,很多以前超前的概念慢慢都变成现实,譬如无人车。其中有个重要的原因是“量变引起质变”。由于支持技术的发展,原来的概念也得以发展。对于“数据科学”的产生也是一样的道理。随着数据指数式增长与爆发,传统的数据处理手段与编程手段已经无法处理“大”数据,所以需要结合现今计算机科学的方方面面来帮助处理。这也就是“数据科学”应运而生的原因。


数据科学的痛点在哪
王太太若有所思,然而看到王先生滔滔不绝,她欲言又止。王先生继续说道,那么数据科学的痛点在哪呢?

数据科学与传统的统计分析不一样的方面在于,它面对大数据增长时是如何解决问题的。我们可以想想当我们获得一份数据时,我们有哪些基本的处理步骤——存储、分析和应用。当数据变大变复杂后,相应的数据处理环节也会发展起来。


  1. 存储。随着计算机的普及,单机的计算能力在提升的同时也变得越来越廉价。这为通过多个计算机组成数据存储中心的集合—— “云”进行海量存储数据提供了可能性。

  2. 分析。分析是个包罗万象的词,主要分成读取和计算两部分。如果数据量太大,一台机器难以承受怎么办?其中一个解决方案是通过多台机器去协同读取和处理数据,也就是所谓的 分布式计算

  3. 应用。如果只是能够计算“大数据”,那么就与传统数据分析无异,无法体现利用“大数据”的优势。分析的目的是为了应用。所以计算机科学发展出能利用数据进行预测、分类、推荐等等的数学模型—— 机器学习(Machine Learning),也就是在上图里,计算机科学与数学统计重叠的部分。而更重要的是,我们需要能利用好“大数据”得出更高准确率的机器学习模型,做更好地应用。以后将继续聊聊为什么需要“大数据”、如何利用好“大数据”和能利用好“大数据”的机器学习模型。

一个学科以解决相关问题为目的才能发展起来。就像计算机科学,从最开始作为其他学科的辅助到最后自成一体,是因为它逐渐拥有大量与其相关的问题并发展出了系统性的解决之道。数据科学也是如此,对于很多人来说,数据科学只是个重新包装的概念,只是因为有些问题比较快地得到不错的解决方案,譬如存储,而有些问题,譬如如何利用好大数据的“大”,却需要更多的时间。然而,数据量的急速增长是无可争议的事实,换句话说,有更多问题在等待这个学科的发展及解决方案。

对于存储和计算的发展,推荐阅读一篇关于AMP Lab的文章(https://zhuanlan.zhihu.com/p/21350352?refer=bittiger),以及深入浅出Spark视频和文章系列(https://www.bittiger.io/channel/HbcfjrPGxJHvKyzQR)。而数据科学可以简化成:
数据科学 = 数据分析 (分析) + 机器学习(应用)
这两部分包含各种未解决的问题,以后会根据行业继续细聊。

数据科学因大数据而生。那么,当今的数据科学发展的方向与趋势又是怎样呢?

王先生为刚才那一番有理有据的分析心中暗暗生喜。

数据科学的今生


人工智能
从你用Google或者百度搜索到去ATM取钱,人工智能无处不在。它自成一体,却又与数据科学有着千丝万缕的联系。对于人来说很简单的问题,譬如从千万张图片中识别出狗,对于计算机却很难。为什么呢?因为狗与狗之间千差万别,姿势也各不相同,我们找不出唯一识别的特征,也无法穷尽所有可能的情况。怎么办呢?数据!就像人可以通过看足够多的狗来识别狗这个品种一样,机器也可以通过对数据的“学习”提高完成一个任务的性能。通过数据学习的人工智能正是数据科学的体现。

在人工智能领域,当然不得不提现在最火的“深度学习”,利用对大量数据(譬如图片、声音等等)的“学习”,令机器完成一系列神奇的事情。

譬如,图B根据图A的风格产生图C。机器能够从图像中学习“风格”。



又或者,和世界冠军下围棋。即使对于围棋这种难以穷举的游戏,机器也能学习到“大局观”。



还能“看图说话”。


科技金融
那么,数据科学与金融行业又是怎么结合的呢?与国内强调的“互联网金融”不同,美国金融行业的发展越发强调与先进计算机科学技术的结合。金融行业天生是数据科学的乐土。一方面如之前所说,没有大数据前,金融行业已经强调统计与金融领域知识的结合,另一方面,金融行业有资源有资金,为金融业与大数据技术的结合提供了先天条件。既有一如既往利用人工智能技术做交易的高频交易所,譬如TwoSigma,又有一系列基于数据做金融衍生品的各个创业公司,譬如能基于你的数据自动帮助你理财的人工智能软件。然而现在金融行业结合数据科学的思路不仅仅在赚钱的方面, 数据科学技术还被用到金融公司的各方各面,譬如异常检测(Anomaly Detection),通过数据来检测异常的交易行为,异常的客户等等,还譬如根据数据,来实现市场营销决策更加自动化等等。


交通行业
交通行业也将会成为数据科学崛起的行业。为什么呢?主要基于两点,这个领域产生数据的大体量与多样性。在交通行业,有个概念叫“车联网”,意思是每辆车通过传感器相互连接,就像互联网一样。而这里的传感器是连接的载体,连接的本身是数据。交通行业的数据连接起来,意味着能更好地分析、决策、应用等等。更大更多样的数据为数据科学在交通行业的应用提供更多可能性。

王先生继续举了三个他最熟悉的例子,第一个是我们经常听到的无人车。路面情况变化很多,如何根据多变的情况作出决策,都是无人车不得不面对的问题,而数据为这个问题的可能解决方案提供了基础。如何利用数据科学和人工智能技术解决无人车的路况识别问题,Google、特斯拉、百度都在做这件事。



王先生说得特别兴起的时候,还特意瞟了媳妇的眼睛,看看里面是否充满了崇拜。接着,王先生举了第二个例子,优步(Uber)这个全球有名,估值上天的创业公司大家都知道吧?。它的各种炫酷的营销玩法是基于数据这点先不说,它的基础模式,根据每个客户以及他周围的Uber司机的地理信息来提升打车的效率,本身就是利用数据。感兴趣的话,可以玩一下太阁的MiniUber项目(https://www.bittiger.io/microproject/CNoovWGEB2HiHxtRH),谁做谁知道。



王先生根本停不下来,继续举了第三个例子。最近在太阁里听到Smarking公司的介绍(https://www.bittiger.io/classpage/2TohjhLoheNNZSAKA)也是个很好的例子——利用数据去解决车主停车难,车库空位却不少的信息不对称问题。



王先生总结,交通行业有太多需要综合数据辅助做决策的地方,所以它绝对是数据科学行业崛起的蓝海。


增长黑客
“增长黑客又是什么东西呢?说起Growth Hacking就要从Facebook的创业团队发起”。王先生依然滔滔不绝,最开始的时候Facebook也有它的市场营销部门,但他们觉得一般的市场营销不够炫酷,不符合他们的宅男文化。不!是骇客文化。他们所期待的是把市场的增长骇起来。由谁实现呢?于是增长黑客这个词应运而生。增长黑客听起来和市场营销很像,因为都是负责市场增长的事情,但是增长黑客更强调利用技术把市场做起来。无论是AB测试还是根据用户的历史行为记录做分析,增长黑客的核心是以数据为驱动,从而实现市场增长的最大化。

说到这里,王先生心里暗暗欢喜。然而数据科学家与厨子的“战争”才刚刚开始。欲知详情,请看下回“王太太的反击”。


【图片来自网络】

【转载请说明文章来源,并分享“论码农的自我修养”公众号】

太阁实验室
有趣,有用,有效;
刷项目,做实战,捅破技术那层纸
论码农的自我修养
WeChat ID: bit_tiger
长按二维码,关注我哟~




点击“阅读原文”跳转原文链接


 
论码农的自我修养 更多文章 论MongoDB和MySQL的区别 论如何选择offer? 【线上分享】深入浅出理解MongoDB的设计与实现 如何设计一个简单高效的链表? 盯着目标和盯着自己
猜您喜欢 JavaScript全讲-架构原则透析 怎样简化业务全局云部署 搞个这样的APP要多久? 定性资料分析和工具实践分享 如何快速爬取大量软妹图