原文:
www.kdnuggets.com/2020/08/data-science-internship-interview-questions.html
评论
由Jay Feng,数据科学负责人兼Interview Query联合创始人。
1. 谷歌网络安全证书 - 快速进入网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
数据科学是一个有吸引力的领域。它有利可图,你可以有机会参与有趣的项目,并且总是能学习到新知识。因此,进入数据科学领域竞争非常激烈。开始你的数据科学职业生涯的最佳方式之一是通过数据科学实习。
在这篇文章中,我们将探讨总体所需的知识水平、典型面试流程的组成部分以及一些示例面试问题。注意,“总体”一词被强调,因为具体内容因公司而异。
数据科学实习面试和全职数据科学家的最大区别在于,你通常不需要了解关于机器学习或深度学习概念的极其具体细节。
然而,你需要具备能够在其基础上进行构建的基本构件——这包括 Python、R 或 SQL、统计学和概率基础以及基本的机器学习概念。
以下是使你成为有吸引力候选人的基本知识和技能列表:
Python 或 R
Python 数据科学库来自TechVidan.
你应该有脚本语言的编程经验,理想情况下是 Python 或 R。如果你是 Python 程序员,你还应该对流行的库如Scikit-learn和Pandas有基本了解。
你应该知道的: 你应该知道如何编写基本函数,并对各种数据结构及其用途有基本理解。你还应该了解 Scikit-learn 的一些基本(但重要)功能,如 test_train_split 和 StandardScaler。对于 Pandas,你应该能够像使用 SQL 编写查询一样,熟练操作 DataFrames。
例如,你可能需要构建一个简单的机器学习模型来预测产品的销售数量。在这种情况下,如果你是 Python 用户,了解 Scikit-Learn 库将非常有用,因为它提供了许多现成的函数,比如上面提到的那些。
如何准备: 尝试在 Kaggle 上做数据科学项目或在 Interview Query 上完成家庭作业,以了解你可能需要完成的项目。
为了更好地了解 Scikit-Learn,构建一个简单的机器学习模型或浏览其他人完成的一些数据科学项目会是一个好主意。
最后,尝试在 Interview Query 上练习 Python 问题,以了解他们可能会问你什么。
SQL
SQL 数据库来自HackersAndSlackers。
你不需要在关系数据库方面有太多经验,但至少应该了解 SQL 的工作原理。 如果你争取一个数据科学实习,那么你很可能会在一个拥有大量数据的公司工作。你将被期望自己浏览这些数据以解决问题。
你应该知道的: 你应该能够编写基本查询,并知道如何使用 SQL 查询操作数据。公司在其家庭作业案例研究中常常会涉及 SQL,因此你需要对 SQL 非常熟悉。
示例问题:
编写一个 SQL 查询以获取Employee表中的第二高薪水。例如,给定以下 Employee 表,查询应返回200作为第二高薪水。如果没有第二高薪水,则查询应返回null。
+----+----------+
Id | Salary |
---|
+----+----------+
| 1 | 100 |
| 2 | 200 |
| 3 | 300 |
+----+----------+
如何准备: Mode 提供了一个很好的学习基础 SQL 的资源,你可以在这里找到。此外,还有大量的 SQL 练习题和案例研究可以在网上找到。
统计学与概率论
图片来源于Unsplash。
你应该对基础统计学和概率论有一定了解。这些概念是大多数机器学习和数据科学概念的基础。同时,许多数据科学职位的面试问题与统计学相关。
你应该知道的: 你应该对基本概念有扎实的理解,包括但不限于概率基础、概率分布、估计和假设检验。统计学的一个非常常见的应用是条件概率——例如,给定一个客户购买了产品 C,那么他购买产品 B 的概率是多少?
**如何准备:**如果这些概念对你来说很陌生,你可以利用一些免费的资源,比如可汗学院或乔治亚理工学院。
机器学习概念
机器学习来自 Forbes。
虽然你不需要成为专家,但你应该对基本的机器学习模型和概念有较好的理解。如果职位描述中提到你会负责构建模型,这一点尤为重要。
**你应该知道的内容:**这包括但不限于线性回归、支持向量机和聚类等概念。理想情况下,你应该对这些概念有基本的理解,并了解何时使用各种机器学习方法。
例如,你可能需要对一个产品的价格点实施线性回归,以确定销售数量。也就是说,作为实习生,你不会被要求将机器学习模型投入生产或部署。
领域知识
你应该对你申请的领域有领域知识(如果没有,你应该学习)。
例如,如果你申请的是市场部门的数据科学职位,了解不同的营销渠道(如社交媒体、联盟、电视)以及核心指标(如 LTV、CAC)会是一个好主意。
图片来自 Unsplash。
再次强调,面试过程最终取决于你申请的公司。但一般来说,大多数(如果不是所有)公司在面试过程中都会有一些常见的步骤,我将在下文中解释。
你作为实习生能做的最糟糕的事情就是不研究公司及其文化使命和价值观。
初步筛选
通常,初步筛选(通常是电话筛选)由公司的人力资源或招聘经理进行。其目的是让面试者对角色有更好的了解,而面试官可以更好地了解面试者。
你应该预期他们会询问你对这个角色和公司的兴趣,你认为自己为什么适合这个职位,以及与你过去经历相关的问题。在极少数情况下,你也可能会被问到一两个简单的技术问题。
面试官只是确保你对公司真正感兴趣,你是一个良好的沟通者,并且没有任何明显的警示信号。
家庭作业案例
现在许多数据科学实习公司会要求你完成一个带回家挑战。这意味着他们会给你一定的时间来完成他们提供的案例研究,这通常反映了你在实际角色中会遇到的那种问题。
这样做是为了了解你如何解决问题(即你的思考过程)以及你是否具备完成问题所需的基本知识。案例示例包括清理数据集和构建机器学习模型以进行给定预测,或查询数据集和分析数据,或两者的结合。
现场面试
最后是现场面试,可能包括一轮到多达六轮的面试。这些面试包括行为性和技术性的面试问题。你也可能需要在某一轮中当场完成一个案例。
虽然他们会尽力确保你对成功履行该角色所需的基本知识有深入的理解,但他们也会评估你的行为、动机,最终判断你是否适合团队。确保你表现得最好,但不要忘记做你自己!
以下是 10 个你应该了解的面试问题示例:
-
什么是 p 值?
-
什么是正则化,它试图解决什么问题?
-
你如何将年龄和收入之间的关系转化为线性模型?
-
如果你有两个相同重量的骰子,得到和为 4 的概率是多少?
-
在整理和清理数据集时,你会采取哪些步骤?
-
什么是交叉验证,它为什么必要?
-
举一个例子说明当准确率不是衡量机器学习模型效果的最佳指标时的情况。
-
INNER JOIN 和 OUTER JOIN 有什么区别?
原文。经许可转载。
相关: