微信号:bit_tiger

介绍:“有趣,有用,有效”.刷项目,做实战,捅破技术的那层纸.

求职丨Data Scientist的技术面试究竟考些什么?

2017-10-13 09:14 BitTiger


Data Scientist的技术面试分为电话面试和现场面试,但它们问到的问题是比较类似的,主要有以下四类问题:

  • Probability/Statistics Questions

  • Coding Questions

  • Machine Learning/Modeling Questions

  • Problem Solving Questions



关于Probability/Statistics Questions,首先是常见的Distribution questions,包括 Poisson, Binomial以及Exponential。举一个例子,银行有很多顾客排队办业务,有两个窗口,现在有两个选项。一是让顾客排成一队,哪个窗口空闲就接待下一位客户;二是让顾客分别在两个窗口前排队,共排两条队。这两个选项中,哪一个方案能使顾客的平均等待时间最短? 这就是Poisson distribution的一个应用。


可以看到在Data Scientist的面试中,不会问最基本的公式,或者类似Poisson的平均数、标准差是什么的问题,而会给你一个具体的情境,考察你能不能熟练应用这些理论或公式。


还有最经常考的贝叶斯定理,比如掷硬币问题。假设你手里有10个硬币,其中的2个硬币是Unfair coin,即它们出现正面的概率不是0.5,我们就假设它是0.7,剩下的8个硬币都是Fair coin,即它们出现正面的概率是0.5。现在我们从这10个硬币中随机选取一个,并投掷10次,发现有7次是正面,怎样通过这个信息推断,“我们选择的是Unfair coin”的可能性是多少?这也是贝叶斯定理的一个应用。


另一个比较常考的是Parametric和Non parametric方式。Parametric的方式是,我们假定 x 服从某一个分布,它的平均数和标准差是已知的。而Non parametric方式是我们不假定 x 服从任何分布,也不强加任何假设在这个数据上,这时我们可以运用Bootstrap,即Sample with replacement。


举一个例子,有100个同学,我们想知道他们的平均身高的置信区间。一方面,我们可以说它们的身高服从正态分布,那么置信区间是从正态分布中提取出来的。另一方面,我们也可以不管这100个同学的身高服从怎样的分布。我们可以每次从这100个同学中选100个样本,这100个样本可能会有重复,比如1号同学出现两次,2号同学没有被选入。每次取样后计算这些样本的平均身高,重复1000次取样后,我们就可以得到1000个平均身高值,这样就可以得出95%的置信区间是多少,这就是Non parametric的解决方式。


Experiment design也是高频考点,它是每个大公司的日常工作都不可缺少的一部分。与Experiment Design相关的问题有:怎样做A/B test,怎样和客户及其他人解释p值等等。



最常考到的Coding题是怎样用R或Python做数据处理,在做数据处理的过程中,用的都是比较基本的Function,比如把数据在SQL里进行Join,或在R中进行Merge;在SQL里排序,或在R中Order等等。


还需要掌握基本的算法问题(如排序和搜索等)、数据结构问题Big O notation(程序运行时间和数据规模的关系)。为什么算法也是被考察的方面呢?因为Data Scientist写代码时也要考虑到代码的速度和效率,虽然这方面并不需要像SDE那样了解得很深。



Modeling问题中,比较常见的是Logistic / linear regression,都需要了解并深入掌握。另外,一定要对你在简历上写出来的Modeling特别地熟悉,面试官很可能会深入提问。如果你不是很了解这个Modeling,就不要轻易在简历上写出来。


以下列举了一些典型的Machine learning问题:

  • What are the performance metrics? Explain Precision and Recall, ROC, AUC

  • How to train decision trees, explain entropy

  • Problem of decision tree, and how to solve

  • Why we want to do bagging and random forest, and how they are implemented?

  • When we need sampling? How? Their impact on performance

  • Explain SVM, kernel. Why we need different kernels?

  • Explain neural network, and backward propagation

  • What is overfitting and how to prevent


Data Scientist的一个比较重要的技能是Product/business sense,会以开放式问题的形式考察,这些问题没有一个确定的答案,很多时候是给你一个Problem solving question。比如给公司某个产品提一些意见,或者某个产品的用户数量降低了,让你找出可能的原因,会问你拿到这个问题该如何入手,你需要迅速分析出:现在已知的事情是什么,不知道的是什么,下一步需要做什么,需要什么信息或数据做支持。这些问题主要考察的是你的分析思维,并且通过这些问题判断,在实际工作中,当把一个新项目交给你时,你能不能快速了解现状,快速上手,并知道下一步该做什么。


以下列举了几个比较常考的Problem solving questions:

  • How to build a recommender system for movie streaming site

  • How to build a recommendation module for ecommerce site

  • How to build a credit card fraud detection model

  • How to optimize bid for ads, CTR modeling, conversion modeling

  • How to improve search experience: relevance, CTR, conversion, explore/exploit

  • How to predict churn rate


准备这些问题的方法就是多收集相关的真题,多加练习。尽早地多接触真题,才能熟练掌握这些问题,准备得也就越充足。



找不到面试真题?面试题不知如何准备?


BitTiger再次推出权威课程【数据科学家直通车】,助你事半功倍成为顶尖数据科学家,并与与未来顶尖数据科学家为伍,冲刺百万美元奖金!


课程目标

三个月学习,硅谷一线资深数据科学家带路,基础知识+项目经验,将学员能力提升到工业界水平,成为数据科学家。


课程安排

第一阶段:R的知识梳理与项目实战

  • 以Lending club在Kaggle上提供的详尽的loan data为例,详解在面试以及实际工作中最需要理解掌握的知识点,涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。学员可以在扩展自己在处理finance, risk management方面的经历,并且对此领域的数据有更深入理解和熟悉的操作。

  • 提前感受Data Scientist的work routine,例如面对最初大量的关于loas申请以及historical payment等原始数据,如何开展,如何理解数据,从而有效提取有predictive的feature,并建立price prediction模型。


第二阶段:Python的知识梳理与项目实战

  • 以Yelp dataset challenge开放实战挑战为例,围绕dataset提出有商业价值的data science 问题,并开发出相应解决方案。

  • 从structured & unstructured data中提取信息,运用包括Natural Language Processing在内的方法,对dataset进行深度挖掘。从而建立clustering model,ranking system,及recommendation system等各种data products。


第三阶段:Capstone Project+面试辅导

  • Facebook与Microsoft等硅谷大牛分享知名互联网公司的工作经历与career path的心得,并从他们当面试官的角度讲解备战名师秘籍。

  • 提供备选项目与dataset,由学生自主选择。跟进学生在项目中需要用到的技术类别分组,在老师的指导下完成项目。


Capstone Project项目简介:

涵盖IT, Health, Finance等方向,满足学生多方面的发展需求。

  • 从海量airbnb数据集中分析用户行为,预测租赁价格,挖掘潜在商机

  • 通过用户的APP下载行为判断其成为VIP service purchaser的可能性

  • Smarking - Parking Prediction

  • Breast Cancer Wisconsin (Diagnostic) Data Set - 预测Breast Cancer是良性还是恶性

  • Two Sigma Financial Modeling Challenge - 在充满不确定性的世界中预测揭示经济动向


课程亮点

  • 夯实的基础知识学习:16小时理论基础知识讲解,三个月掌握R、Python,夯实统计基础,系统掌握数据科学家核心技术需求

  • 工业级项目经验:32小时在线项目实战,实时答疑,三个月完成Kaggle房价预测、Yelp Business、Capstone Project三大工业界大型实战项目

  • 紧密围绕面试求职:16小时Probability and Statistics, Machine learning, Problem Solving等高频面试题专题精讲,掌握面试答题思路与技巧

  • 顶尖师资力量:来自Google, Walmartlabs, Splunk, Boeing的四大名师主讲,Live coding带你从0-1实现三大项目。同时特邀来自Microsoft, Facebook的Guest Speaker,分享职场心得,讲解备战面试秘籍。

  • 海量学习资源:BitTiger独家海量原创视频库,全套数据科学基础知识及面试指导视频,包括40小时内部拓展教程(R, SQL, Hadoop, MapReduce, Hive, NoSQL, Tableau, DS/DA面试专题)、硅谷之路视频和面试指导视频等。


顶尖教师团队

Ella

Data Scientist @ Google


John

Principal Data Scientist @ Walmartlabs

精通机器学习和统计建模,在多个垂直领域有丰富的经验和深刻的见解。曾经就职于FinTech初创公司,和大数据咨询公司。在布朗大学获得博士学位,并在MIT从事两年的博士后研究。


Sean Han

Data Analyst @ Boeing

CMU Master 毕业,在校期间因为能力出众而成为了许多同学求帮debug的对象,擅长机器学习、大数据。目前就职于波音,负责利用大数据与机器学习预测飞机零件的需求。


Liang Xie

Principal Data Scientist @ Microsoft

纽约州立大学计量经济学 Ph.D.,微软云计算核心存储部门首席数据科学家,主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有10年以上机器学习应用经验,熟悉各种业务场景下机器学习和数据挖掘产品的需求分析,架构设计,算法开发和集成部署,行业跨度包含金融,能源和高科技。


Maigo

Phd @ Carnegie Mellon University

卡内基梅隆计算机学院语言技术研究所PhD。本科清华电子系,以全系第一的成绩进入CMU,熟练掌握6门外国语言,自学Android开发可以同时查询汉字的中古音、汉语各方言以及各种外语读音的应用程序。


往期学员课程评价



Stone老师很负责,很认真,很耐心,课件准备充足,使得课程内容充实有效率。学到了很多基础而核心的内容。

—— Jason Li


我能感觉到技术给这个世界带来的巨变,编程逐渐变成必须技能,数据科学可以在任何行业得到运用。可是,因为我们处于这个变化中,非CS本科出身的人,若想进入这个领域,并看到尖端的技术,壁垒是很高的。BitTiger的讲座,视频,课程,我感觉是在level the playground,很感激你们在做这样的事情。

——Lily Zhang


Stone老师实在太感谢你了!超级有耐心温柔!帮助了我找回学习的信心和动力。

——Yiqi Fan


学员成功案例


报名第一节课程(免费)

复制链接或点击“阅读全文”查看课程主页

http://t.cn/RO9eZ0F


课程咨询及报名申请流程

将简历发送至Xiongyi@bittiger.io, 邮件主题请设置为“数据科学家直通车”


内容包括

  • 你的简历

  • 你的微信ID

  • 为什么想参加此门课程


我们课程组老师会在收到简历后24小时内进行简历背景评估,并电话回访提供职业指导


查看详细课程大纲,公众号后台回复“DS501”


联系课程负责人Davy


 
BitTiger 更多文章 求职丨我是如何五个月从小白到AI工程师? 求职丨大数据工程师面试的各个环节在考察什么? 求职丨如何让Business Analyst简历不在一秒内被淘汰? 职位丨全栈工程师技术发展及行业趋势 求职丨机器学习工程师求职须知
猜您喜欢 京东技术开放日第三期—京东大数据技术的创新实践 优雅实用的「高效率工具」App 推荐 【福利】没钱送礼怎么办?我送你! IBM联合CSDN发布Power Linux开发测试云平台 区块链-以太坊学习资料汇总