数据科学面试杀“高玩”学姐分享了一份绝密详细求职攻略。

大数据 3449 Views

上周末你如约而至了么?

数据应用学院每周末都会为大家奉上

最高质量有价值的公开课程,

我们不收取任何费用;

为了让更多人了解数据领域真正需要什么,

为了让想学习数据的同学们勇敢迈出第一步,

为了让已经在领域里驰骋的朋友们实时了解

行业里最热门最新潮的知识!

欢迎大家访问公开课主页面了解每周公开课

欢迎大家访问Youtube看你错过的公开课录播

你是否还在犹豫要不要改行数据分析,还在困惑如何准备面试?

小编为大家总结了上周公开课数据行业的求职分享为大家一一解答。

随着网络时代向数据时代的过度,各个行业日益产生大量数据,在数据的产生传播与总汇的处理过程中,数据相关人才大量的被企业所需求,包括包括数据分析,数据挖掘,算法工程师,大数据开发,系统构架,人工智能开发等等。

数据分析一般分为如下几个步骤

1

第一步是数据的获取

主要有两种方式,一种是外部公开数据的搜集,基本都可以直接下载,数据通常比较完善,质量较高。另一种就是爬虫获取。常用的 python package 有 urllib、BeautifulSoup、requests。

 

2

下一步是数据的存储与提取

数据量在1万以内是可以用 Excel 来处理的,当数据量过大,就需要用 SQL 来进行调取查询。这一部分需要掌握的技能包括数据表格 inset, update, delete 以及如何写查询 query,这些是数据库最基本的操作。

面试中还会经常考到 group by,order by,left join, inner join, 以及建立多个表之间的联系,primary key, foreign key 的使用等等。SQL 语言是针对结构化的数据,如果是非结构化的数据,在数据存储中通常会用到 MongoDB 数据库,这一部分面试中可能不会考到,但是我还是建议大家学一学,毕竟很多企业也会用到 MongoDB 数据库存储数据。

 

3

接下来是数据预处理

很多时候我们拿到的数据是不干净的,数据有重复行、缺失、异常值等等,这时候就需要进行数据的清洗,这样才能更加精确地分析结果。

这一部分需要掌握 Python 的 pandas package 和它对于 data frame 的各种操作,比如 data frame 中 index 和 column 的访问和选取,关于数据处理还有缺失值,重复值和异常值的处理,对它们进行删除或者是填充,其它相关操作比如描述性统计,apply 函数,符合各种逻辑关系的合并操作 merge,concat。

学习 pandas 工具包网上有很多的教程,主要是一些函数的应用。

 

4

最重要的一步是数据分析和建模

因为数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。

这一部分需要掌握的知识点包括基本的统计量:比如均值、中位数、众数、百分位数、极值等,以及描述性统计量:偏度、方差、标准差、显著性等,统计这方面还需要掌握条件概率、贝叶斯等,概率分布与假设检验。而建模这块这要涉及到 machine learning 的各种算法和模型,对于初级的数据分析师来说,通过掌握 regression 分析方法 linear regression 和 logistic regression, 其实你就可以对大多数的数据进行回归分析,并得出得到一个相对不错的分析结论。

但是对于 DS 工作岗位,对于 machine learning 这块掌握的程度要求比较高,需要理解分类算法 classification 中的大多数算法模型,比如 decision tree, bagging 和boosting 的区别,和实际问题中经常会用到的梯度下降算法。

然后 machine learning 这一部分还需要掌握聚类算法 clustering 的几种常用模型比如k-means, dbscan。

然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,还需要去学习特征工程,如何通过特征提取、参数调节来提升预测的精度。这一部分大家可以通过 python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。

5

最后一步是数据可视化

这一部分主要是使用 python 的基本绘图包 Seaborn、matplotlib 等做一些可视化的分析。高级可视化工具包还有像 ploty, bokeh 做一些 interative data analysis。

在了解了数据分析的基本流程后,我们来给大家讲解一下求职准备,比如简历的修改和面试中会涉及的问题。

下图给大家罗列的相关技能需要准备的资料。

在基本技能知识掌握好了之后,就要扩充自己的经历,比如做一些行业相关的projects,参加 Kaggle 比赛等。有了这些经历后就可以丰富修改简历。

对于简历的修改有以下几个点。

首先是要保证简历的基本美观,比如说字体选择,字体大小,行间距要合适,保证每个章节段落清晰,整体格式一致,左右两边的内容对齐。第二点是保证简历中的动词的时态一致,避免出现语法之类的错误,我说的这些都是些细节的问题,但也是大家写简历中往往会忽略的要点。

其次是简历上的内容,建议大家在投某个公司之前先看下 job description 上的描述和这个职位要求的技能,然后根据职位描述针对性的修改简历,保证简历上的项目经历和一些词汇尽可能多的和 job description 相关,尽量减少不相关的内容。

还有一个想提到的是,不要把做过的所有 project 都一一罗列在简历上,而是选择几个比较重要和突出的 project,移花接木的形式讲解,每个项目列写3到4个 bulli points, 不要只是罗列涉及到的知识点,而是要突出 hands-on 的经历,和项目最后达到的结果,最好以数字的形式具体直观的体现。比如如果这个 project 解决的是大型数据集,描述时可以提到处理了多少行的数据,有多少个 feature, 这个算法最后 achieve 达到了什么目的,实现了什么,模型的评价具体 accuracy 值是多少,score是多少。

当你做好了所有准备,下一步要做的就是了解求职面试的流程。以美国一些大公司为例,总的来说可以分为四个部分。

首先是第一轮收到 phone interview 的通知,这个电话面试是 recruiter 给你面试,时间大概是15到20分钟,recruiter 首先会介绍一下他们公司,公司做 data 的这个 department 大体情况,之后就会问你的背景,比如学历,工作经历,个人的兴趣,然后让你具体描述一个自己曾经做过的项目,这个项目用到了什么数据集,解决了什么实际问题,你用了哪些模型,assumption 是什么,最后达到了什么目标。主要是考察你的交流能力,和描述 Project 的能力。

第二部分会给你一个 take-home challenge 在规定时间内提交。

大部分公司的第三个环节是 screen interview, 这个环节是和公司的 experienced data scientist 面试,时间大概是45分钟到一个小时。和之前的 Phone interview 不同,这个环节的面试主要是考察你的 technical skills。

面试流程的最后一个环节就是 onsite interview,可能会面对几个面试官,他们会让你先做一个自我介绍,然后针对简历上的内容,简历上写的每一个 project, 一一的让你展开描述,所以大家 onsite 面试前一定要对简历上的内容熟透,每个 project 解决了什么实际问题,难点是什么,用到的工具,方法,和模型,最后的模型评价以及达到的目的。

建议是准备面试时可以先写个稿子,反复的练习,保证当天回答时思路清晰,表达流利,免的被问的尴尬。然后有的公司 onsite 面试时还会让你做一套试题,比如考算法题等等,考试内容因公司而异。

对于 Onsite 面试我还有一点想提的是,在面试前一定要对公司的文化,业务部门,公司的产品做一个功课,面试时要流露出对公司已经有了一定的了解,流露出对这个职位非常的感兴趣,而且我能带给公司哪些利益,这样面试官听了会很高兴。

听了这期的公开课,你是否对数据分析行业有了进一步的了解呢。如果还想跟细致的学习或者求职,开来报名参加我们的数据科学家课程。

下周公开课预告

点击阅读原文,报名下一期数据科学家课程吧!

如未说明则本站原创,转载请注明出处:NULL » 数据科学面试杀“高玩”学姐分享了一份绝密详细求职攻略。