Skip to content

Latest commit

 

History

History
205 lines (116 loc) · 9.9 KB

7-data-analytics-interview-questions-answers.md

File metadata and controls

205 lines (116 loc) · 9.9 KB

7 个数据分析面试问题及答案

原文:www.kdnuggets.com/2022/09/7-data-analytics-interview-questions-answers.html

7 个数据分析面试问题及答案

图片由作者提供

数据分析面试分为多个部分,如非技术性、技术性和 SQL。招聘经理将评估你对统计工具和概念的了解。此外,你还会被问到情境问题,要求你解释如何准备分析报告、清理数据或进行图表解读。


我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业轨道

2. Google 数据分析专业证书 - 提升你的数据分析水平

3. Google IT 支持专业证书 - 支持你组织的 IT 需求


在这篇博客中,我们将探讨在数据分析面试中常见的七个具有挑战性的问题。

非技术性问题

1. 你如何向非技术观众解释技术概念?

在这个问题中,面试官正在评估你的沟通、演讲和人际交往技能。能够向管理者或客户解释技术概念是一项重要技能。

除了均值、相关性或数据分布等技术术语外,你还需要了解更多关于数据及其特征的知识。尝试连接对业务有意义的点。你需要确保理解业务和受众,以便用通俗的语言解释概念。

2. 定义这个产品成功的前三个指标是什么?你会如何选择?

为了回答这个问题,你需要了解行业、业务和产品的领域知识。你可以请面试官讲述公司的战略和愿景,这有助于你形成答案。

对于社交媒体产品,三个指标可以是每日活跃用户数、前两周内添加好友的用户数量和每周的帖子数量。这些指标基于公司的愿景和产品策略。因此,在面试前最好先研究一下公司。

技术性问题

3. 什么是描述性分析、预测性分析和规范性分析?

描述性分析提供对过去的洞察,以回答类似“营销活动与去年相比表现如何”的问题

预测性分析是利用洞察力来预测未来事件或预测增长。

规范性分析用于建议各种行动方案,以防止灾难或改进产品。

4. 数据分析项目涉及哪些步骤?

这个问题完全取决于你。一般来说,数据分析项目包括理解问题陈述、收集数据、清理数据、探索、分析和可视化数据,最后为非技术观众解释结果。你还可以根据具体问题提到工具、技术和额外步骤。

5. 如何处理数据集中的缺失值?

处理缺失数据的方法有很多。最常用的方法是删除缺失值的行,如果数据集较大且平衡的话。

除此之外,你还可以:

  • 删除缺失值的列

  • 用常数填充。

  • 平均值和中位数填补。你将用列的平均值或中位数替换缺失值。

  • 使用多元回归分析来估算缺失值

  • 考虑多个列,用平均模拟值和随机误差替换缺失值。

SQL 问题

6. 创建一个 SQL 查询,从 employee_details 中检索重复记录,忽略主键和 EmpId。

解决方案很简单。你将选择所需的列并计算(Count())。之后,按唯一标识进行分组,例如员工姓名、经理 ID、入职日期和城市。然后使用HAVING来筛选重复项。如果Count(*)*值大于 1,则为重复记录。

你可以将相同的策略应用于任何表。确保按多个唯一 ID 列(例如姓名和地址)对表进行分组。

解决方案

SELECT fullname,
       managerID,
       joining_date,
       city,
       COUNT(*)
FROM employee_details
GROUP BY fullname,
         managerID,
         joining_date,
         city
HAVING COUNT(*) > 1;

7. 编写一个 SQL 查询,以查找在其演示文稿中插入了 1000 到 2000 张图像的用户数量

: event_log

user_id event_date_time
1255 1535308433
4566 1535308444
9566 1535308476

解决方案简单但棘手。首先,你需要计算每个用户的图像数量,然后计算图像数量在 1000 到 2000 之间的用户数量。

内部查询将计算event_date_time并按user_id分组,以找到每个用户的唯一用户 ID 和每个用户的图像数量。之后,创建外部查询,筛选出图像数量在 1000 到 2000 之间的用户,并计算他们的数量。

解决方案

SELECT COUNT(*)
FROM (
SELECT user_id,
       COUNT(event_date_time) AS image_per_user
FROM event_log
GROUP BY user_id AS image_per_user
WHERE image_per_user < 2000
  AND image_per_user > 1000;

参考

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品,帮助那些面临心理健康问题的学生。

更多相关话题

获取免费的电子书《伟大的自然语言处理入门》和《数据科学备忘单全集》,以及有关数据科学、机器学习、人工智能和分析的领先新闻直达你的邮箱。

订阅即表示你接受 KDnuggets 的 隐私政策


<= 上一篇文章下一篇文章 =>

最新帖子

|

精选帖子

|


© 2024 Guiding Tech Media   |   关于我们   |   联系我们   |   广告 |   隐私政策   |   服务条款

由 Abid Ali Awan 于 2022 年 9 月 12 日发布