微信号:ai-front

介绍:面向AI爱好者、开发者和科学家,提供最新最全AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、最新AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

2017年数据科学和机器学习的现状分析

2017-11-26 19:35 期待你关注的
译者 | 李瑞丰
编辑 | Vincent
AI 前线导语:Kaggle 在今年第一次尝试通过分析横跨多个行业领域的数据,来综合地观察和分析当前数据科学和机器学习领域的现状。他们收到了大概 16000 份反馈,并根据这些数据对行业中数据使用现状、各行业之间机器学习的分水岭,以及新的数据科学家进入这个领域的最佳切入点等等多个方面进行了分析,进而有了深入的理解和认识。

接下来的报告要跟各位读者分享从分析中得到的一些关键发现。通过不同的筛选条件,你可以很容易地找到你所需的内容(译者注:筛选条件可以在原文链接中进行操作)。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

下面是一些基本观点:

  1. 尽管 Python 是最流行的工具,通常统计报告当中使用的还是 R 语言。

  2. 数据科学家的平均年龄是 30 岁,但是取决于他们所在的国家。例如,印度数据科学家的平均年龄要比澳大利亚数据科学家的年龄平均低 9 岁左右。

  3. 我们的调查对象的学历,占比最大的是本科。但是那些位于行业顶尖收入水平(150k 美元)的数据科学家通常都拥有博士学位。

Kaggle 上提供了全面的且是匿名的数据供你下载、探索和研究。

数据下载地址:

https://www.kaggle.com/kaggle/kaggle-survey-2017

谁使用数据?

有很多方式能看到谁会使用数据,但是我们会从一些人口统计学的角度去分析现今工作在数据岗位上的人都有哪些:

你多大了?

调查显示,平均年龄大概在 30 岁左右。但是具体到每个国家,情况并不尽相同。例如,调查显示印度数据科学家的平均年龄要比澳大利亚的数据科学家年龄小 9 岁。

你的工作状态是?

你的头衔是?

当我们将数据科学家定义为 “ 那些用代码来分析数据的人们 ” 的时候,我们发现有很多的工作符合数据科学家的定义。例如,在马拉西亚和伊朗,最普遍的数据科学家的头衔是 “ 科学家或者研究人员 ”。

全职工作的薪水是?

在我们的调查报告当中,尽管 “ 职业规划发展 ” 这个因素的重要性要高于 “ 工作报酬 ” 这个因素,但是我们还是应当了解数据科学家收入的现状。在美国,机器学习工程师的报酬最高(平均下来)。

你的最高学历是?

所以,你接下来是否需要继续进修?通常来讲,数据科学家中占比最大的学位为学士学位。但是那些薪酬最高(年薪在 150k - 200k 美元之间)的人群,基本都拥有博士学位。

报告中显示大部分数据科学家年龄在 30 岁左右,拥有学士学位,年薪大概是 55000 美元。但是绝大部分人达不到平均水平。之前的几个统计调查中从一些浅层的角度入手,分析了那些在 Kaggle 的数据科学家们的一些统计数据,包括他们的年龄、性别、居住国家、工作职级、薪水、工作经验以及受教育程度等等多个维度。

数据科学家们平时都做些什么?

我们把那些 “ 写代码来分析数据 ” 的人们定义为数据科学家。在咨询了相关数据科学家之后,我们来通过下面几个报告看看他们平时都做些什么:

数据科学家们工作都采用哪些方法

除了军事和安全领域之外,其他领域的数据科学家平时用到逻辑回归的方法最多。在这其中以神经网络领域数据科学家尤甚。

什么语言在工作中应用最广泛?

Python 是在数据处理中应用的最广泛的语言,但是大部分统计报告当中仍旧使用 R 语言。

什么类型的数据在工作中最常见?

除了学术研究、军工业以及安全领域之外,关系型数据是日常工作中最常见的一种数据类型。在军工业和安全领域当中,文本类型的数据更多。

工作中如何共享代码?

尽管 Git 在日常代码管理和分享中占据了最大的比重,但是通常在大公司,人们更喜欢通过如电子邮件等方式来避免使用云相关的方式。小公司中的人们出于敏捷开发的考虑,更多的采用云相关的工具来分享代码。(译者注:出于安全角度)

工作当中会遇到什么挑战?

啊哈,我们又一次碰到了脏数据的问题。看起来数据科学家日常工作中最常碰到的问题就是如何处理脏数据。当然,那些自始至终小心翼翼的数据工程师不会碰上类似的困扰。接下来可能就是公司政策、缺乏管理以及经济方面的支持,是对数据科学家困扰最大的内容了。

如果你点击上面的过滤器(译者注:在原文网站中可以选择),你可能会注意到困扰很多行业的数据科学家们的问题是缺乏数据科学相关的天赋。这意味着新的数据科学家的运气都很棒(如果你知道怎么去看的话)!因为看下面就能知道我们前面提到的调研对象们是如何摆脱这些问题的。

新的数据科学家如何入门?

当你踏入一门新领域的时候,学习前人的成功经验是很有帮助的。下面就是我们向现在的数据科学家 “ 取经 ” 之后得到的一些建议:

新手数据科学家入门语言是什么?

每个人入门的时候都能选择一门语言来学习。下面的报告显示,那些学习 Python 语言或者 R 语言的人们通常认为自己的选择是明智的。但是如果你咨询那些同时掌握 Python 和 R 语言的人,他们通常会向你推荐 Python。

数据科学家常见的学习资源有哪些?

数据科学是一门快速发展和变化的学科,并且有很多有价值的资料供你学习。这些资料能帮助你学习数据科学,并且站在这行的顶尖位置,让你炙手可热。那些已经身处数据科学领域的人们,通常使用 Stack Overflow 问答网站、Conference,还有 Poscats 来持续充电。如果你准备制作一些入门资源或者开源软件,那么你需要谨记新手通常喜欢参考官方文档,或者通过观看 YouTube 视频的方式来学习。

你从哪里找到公开数据?

没有不需要数据的数据科学家。当你准备学习数据科学相关技能的时候,知道从哪里能找到公开的且干净的数据集来完成训练就成了一件非常有价值的事情。很高兴作为数据提供者,我们正在逐渐成为数据科学家们最活跃的社区。

你如何找到工作?

当你开始关注新工作的时候,公司的招聘网站或者专注于科技职位的招聘网站可能是一种选择。但是根据数据科学从业者们的反馈来看,这可能是比较低效的几种找工作的方式。与猎头或者招聘者建立你们的社交网络是一种好的办法。

Kaggle 是一个连接数据科学家,并为其提供学习和探索数据科学的平台。同时在我们的平台上,还能参与到机器学习相关竞赛当中。Kaggle 从 2010 年创立伊始,就吸引了大量的数据科学家以及机器学习工程师。到目前为止,我们的注册用户已经超过了一百万,并且遍布世界各地各个国家。我们平台本身也成为了最大的数据科学社区。

前文提到的所有数据都来自于 Kaggle 2017 数据科学家调查。源数据可以从这里下载,我们的数据分析代码也可以从这里看到。

源数据下载

https://www.kaggle.com/kaggle/kaggle-survey-2017

需要说明的是,调查报告中那些不足 50 人的国家,我们统一归为 “其他” 分类(译者注:在原图中是“others”)。为了更好的展示,我们简化了某些问题的描述,完整的调查报告可以从这里找到。某些问题允许被调查人选择多个答案,所以某些问题中选项的百分比相加可能超过了 100%。

查看英文原文

https://www.kaggle.com/surveys/2017


 
AI前线 更多文章 商汤IPO指日可待,管理140位博士的工程VP谈AI落地 基于Flink流处理的动态实时超大规模用户行为分析 陆奇的策略:小米+百度,但雷军和李彦宏两巨头能亲密合作吗? 送书|十年大数据,十年区块链,两技术如何共生演进? 又来抢大数据饭碗?AWS发布SageMaker:省略数据清洗、建模、调参等步骤
猜您喜欢 python分析nginx日志 Todo 贵司的监控系统处于什么时代? Angular2使用体验 从0实现一个延迟代理服务