Skip to content

Latest commit

 

History

History
401 lines (201 loc) · 19.4 KB

data-science-interview-study-guide.md

File metadata and controls

401 lines (201 loc) · 19.4 KB

数据科学面试学习指南

原文:www.kdnuggets.com/2020/01/data-science-interview-study-guide.html

评论

作者 Ben Rogojan,SeattleDataGuy


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业轨道。

2. Google 数据分析专业证书 - 提升你的数据分析水平

3. Google IT 支持专业证书 - 支持你的组织的 IT 工作


数据科学面试,如同其他技术面试一样,需要充分的准备。为了确保你能够应对统计学、编程和机器学习的连续问题,需要涵盖多个主题。

在开始之前,我想分享一个提示。

我注意到公司进行的数据科学面试有几种类型。

一些数据科学面试非常以产品和指标为导向。这些面试更多关注像你会使用什么指标来展示你应该改进产品的地方等产品问题。这些问题通常与 SQL 和一些 Python 问题搭配出现。

另一种数据科学面试往往混合了编程和机器学习。

如果你不确定将面对哪种类型的面试,我们建议询问招聘人员。有些公司非常擅长保持面试的一致性,但即便如此,团队也可能会根据他们的需求有所不同。以下是我们注意到的一些公司数据科学面试的例子。

Airbnb — 产品导向,指标诊断,指标创建,A/B 测试,大量行为问题,以及家庭作业材料。

Netflix — 产品感觉问题,A/B 测试,实验设计,指标设计

Microsoft — 编程为主,二叉树遍历,SQL,机器学习

Expedia — 产品、编程、SQL、产品感觉、关于 SVM、回归和决策树的机器学习问题

由于这种差异,我们创建了一个清单,以跟踪你学习过的主题领域以及你仍需覆盖的内容。

数据科学学习清单

首先,确保你能解释基本的数据科学算法。

机器学习算法

  1. 逻辑回归 — 视频

  2. A/B 测试 — 视频

  3. 决策树 — 博客

  4. SVM — 博客

  5. 如何使用 SVM — 视频

  6. 主成分分析:PCA — 博客

  7. 主成分分析 — 视频

  8. AdaBoost — 博客

  9. AdaBoost — 视频

  10. 机器学习中的梯度提升算法的温和介绍 — 博客

  11. 梯度提升第一部分:回归主要思想 — 视频

  12. K-Means 聚类 — 智能数学 — 视频

  13. 贝叶斯网络 — 博客

  14. 神经网络 — 博客

  15. 降维算法 — 博客

  16. kNN 算法如何工作 — 视频

概率与统计

在大型科技公司,偶尔会收到概率或统计学的问题。虽然这些问题不一定需要复杂的数学,如果你有一段时间没有考虑独立和依赖概率,那么复习基础公式是很有帮助的。

概率视频

  1. 条件概率简介

  2. 独立与依赖概率

  3. 独立事件问题

  4. 条件概率文章

概率测验

  1. 概率与统计 — 第 6 组

  2. 概率与统计 — 第 2 组

  3. 独立概率

  4. 依赖概率

概率面试问题

这些问题大多数都与我们被问过的问题相似,或者直接取自于glassdoor.com

  1. 一个骰子被掷了两次。第一次掷出 3 和第二次掷出奇数的概率是多少?

  2. 在任何 15 分钟的时间间隔内,有 20%的概率能看到至少一颗流星。在一个小时的时间段内看到至少一颗流星的概率是多少?

  3. 爱丽丝有两个孩子,其中一个是女孩。另一个孩子也是女孩的概率是多少?你可以假设世界上男性和女性的数量相等。

  4. 你可以将 12 个人分成 3 个 4 人团队的方式有多少种?

统计学预测

  1. 数据科学概率统计 14

统计学概念

统计学是一个广泛的概念,所以不要过于纠结于这些视频的细节。相反,确保你能在表面层面解释这些概念。

  1. 偏差-方差权衡

  2. 混淆矩阵

  3. ROC 曲线

  4. 正态分布

  5. P 值

  6. PearsonSpearman

  7. 正态分布问题:z 分数(来自 ck12.org)

  8. 连续概率分布

  9. 标准化正态分布随机变量(快速版)

  10. 统计学 101:简单线性回归,基础知识

  11. 统计学 101:线性回归、异常值和有影响的观察

  12. 统计学 101:ANOVA,视觉导览

  13. 统计学 101:多重回归,基础知识

  14. 统计学:总体方差 | 概率与统计 | Khan Academy

  15. 期望值:E(X)

  16. 大数法则 | 概率与统计 | 可汗学院

  17. 中心极限定理 | 推论统计 | 概率与统计 | 可汗学院

  18. 误差范围 1 | 推论统计 | 概率与统计 | 可汗学院

  19. 误差范围 2 | 推论统计 | 概率与统计 | 可汗学院

  20. 假设检验与 p 值 | 推论统计 | 概率与统计 | 可汗学院

  21. 单尾检验与双尾检验 | 推论统计 | 概率与统计 | 可汗学院

  22. 第一类错误 | 推论统计 | 概率与统计 | 可汗学院

  23. 大样本比例假设检验 | 概率与统计 | 可汗学院

  24. 提升与装袋

统计学测验后

  1. 数据科学概率统计 17

产品与实验设计

产品意识是数据科学家必备的重要技能。了解在新产品上应该测量什么及其原因,有助于确定产品是否表现良好。有趣的是,有时候某些指标朝着你期望的方向发展,可能并不总是好事。人们在你的网站上花费更多时间,可能是因为网页加载时间更长或其他类似的用户面临问题。这就是为什么指标很棘手,以及你测量什么是重要的。

产品与实验设计概念

  1. 用户参与度指标

  2. 数据科学家的工具箱:实验设计 - 视频

  3. A/B 测试指南

  4. 多变量测试

  5. 6 种指标主题

产品与指标问题

  1. 一个重要指标下降,你会如何深入分析原因?

  2. 你会使用什么指标来量化 YouTube 广告的成功(这也可以扩展到其他产品,如 Snapchat 滤镜、Twitter 直播、Fortnite 新功能等)

  3. 你如何衡量一个产品/产品功能的成功或失败

  4. Google 发布了其搜索算法的新版本,他们使用了 A/B 测试。在测试过程中,工程师发现新算法没有正确实施,返回了不相关的结果。在测试过程中发生了两件事:

  • 治疗组的人比对照组执行了更多的查询。

  • 治疗组的广告收入也更高。

为什么治疗组的人比对照组执行了更多的搜索?这里可能有不同的答案。

问题 4 来源于 Zarantech; 我们非常喜欢这个问题,并认为它很好地展示了事情如何可能出错。

编程

仅仅因为数据科学并不总是需要大量编程,并不意味着面试官不会要求你遍历二叉树。因此,确保你问问面试官预期会遇到什么问题。不要被这些问题吓倒。做几个练习,以防在面试中感到意外。

视频前问题

  1. Fizz Buzz

  2. 在数组中找第 K 小/大的整数

  3. 第 N 个斐波那契数

算法与数据结构

视频前问题

在查看关于数据结构和算法的视频内容之前,考虑尝试以下问题。这将帮助你了解需要关注的重点。

  1. 查询后的偶数和

  2. 机器人回到原点

  3. 大小为 2N 数组中的 N 次重复元素

  4. 平衡二叉树

数据结构视频

  1. 数据结构与算法 #1 — 什么是数据结构?

  2. 多维(视频)

  3. 数据结构:链表

  4. 核心链表与数组(视频)

  5. 数据结构:树

  6. 数据结构:堆

  7. 数据结构:哈希表

  8. 数据结构:栈和队列

算法视频

  1. 面试中的 Python 算法

  2. 算法:图搜索,DFS 和 BFS

  3. BFS(广度优先搜索)和 DFS(深度优先搜索)(视频)

  4. 算法:二分搜索

  5. 二叉搜索树复习(视频)

  6. 算法:递归

  7. 算法:冒泡排序

  8. 算法:归并排序

  9. 算法:快速排序

字符串操作

  1. 编程面试题与答案:最长连续字符

  2. Sedgewick — 子字符串搜索(视频)

SQL

学习后问题

现在你已经学习了一些内容,并观看了一些视频。让我们尝试一些更多的问题吧!

  1. 更大的值

  2. 之字形转换

  3. 反转整数

  4. 组合总和 II

  5. 字符串相乘

  6. 拉里的数组

  7. 短回文

  8. 有效数字

  9. 更大的值

  10. 完整的计数排序

SQL — 问题

一般来说,面试中至少会有一个以 SQL 为重点的部分。此外,面试官可能会带你了解整个产品开发过程,选择需要跟踪的指标,然后进行查询以衡量该指标的有效性。

  1. 旅行和用户

  2. 体育场的人流量

  3. 部门前三薪水

  4. 交换座位

  5. Hackerrank 报告

  6. 第 N 高的薪水

  7. 对称对

  8. 职业

  9. 招聘

  10. 奥利凡德的库存

SQL — 视频

  1. IQ15: 6 个 SQL 查询面试问题

  2. 学习 ROW_NUMBER 和分析函数

  3. 分析函数高级实现

  4. 分析函数高级实现 第二部分

  5. Wise Owl SQL 视频

后续 SQL 问题

  1. 二叉树节点

  2. 天气观测站 18

  3. 挑战

  4. 打印素数

  5. 大国家

  6. 交换座位

  7. SQL 面试问题:3 个技术筛选练习(针对数据分析师)

结论

技术面试可能会很艰难。不论是针对软件工程师数据工程师还是数据科学家。我们希望这份学习指南能帮助你跟踪进展!

如果你认为我们遗漏了什么,或者有其他你认为有帮助的资源,请告知我。谢谢!

原文。经许可转载。

简介:Ben Rogojan是位于西雅图的数据科学家兼工程师,拥有丰富的经验,设计了 ETL 管道、数据库、网站以及其他初创公司和成熟公司的软件产品。Ben 目前在一家健康分析公司担任数据工程师。

相关:

更多相关内容