Skip to content

Latest commit

 

History

History
141 lines (71 loc) · 7.55 KB

5-data-science-projects-hired.md

File metadata and controls

141 lines (71 loc) · 7.55 KB

2018 年能够让你被聘用的 5 个数据科学项目

原文:www.kdnuggets.com/2018/06/5-data-science-projects-hired.html

c 评论

作者:约翰·沙利文,DataOptimal

你已经在参加 MOOC 课程并阅读了许多教科书,但现在该怎么办?获得数据科学工作可能看起来很令人畏惧。展示你的技能的最佳方法是制作一个作品集。这向雇主展示了你能够运用你所学的技能。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作


为了展示这些技能,以下是你的作品集中 5 种数据科学项目:

  1. 数据清洗

数据科学家可以预计在新项目中花费多达 80% 的时间在 数据清洗 上。这是团队中的一个重大痛点。如果你能展示你在数据清洗方面的经验,你将立即变得更有价值。要创建数据清洗项目,找到一些杂乱的数据集,并开始清洗。

数据清洗

如果你使用 Python,Pandas 是一个很好的库,如果你使用 R,你可以使用 dplyr 包。确保展示以下技能:

  • 导入数据

  • 合并多个数据集

  • 检测缺失值

  • 检测异常

  • 填补缺失值

  • 数据质量保证

  1. 探索性数据分析

数据科学的另一个重要方面是探索性数据分析(EDA)。这是一个生成问题并通过可视化进行调查的过程。EDA 允许分析师从数据中得出结论,从而推动业务影响。它可能包括基于客户细分的有趣见解,或基于季节性影响的销售趋势。通常,你可以发现一些最初没有考虑到的有趣发现。

探索性数据分析

一些用于探索性分析的有用 Python 库包括 PandasMatplotlib。对于 R 用户,ggplot2 包将非常有用。一个 EDA 项目应该展示以下技能:

  • 能够提出相关的问题进行调查

  • 识别趋势

  • 识别变量间的协变关系

  • 使用可视化(散点图、直方图、箱线图等)有效地传达结果

  1. 交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队和更具业务导向的最终用户都很有用。仪表板使数据科学团队能够协作,共同提取见解。更重要的是,它们为面向业务的客户提供了一个交互式工具。这些客户关注战略目标,而非技术细节。数据科学项目的最终交付物通常是仪表板形式。

交互式数据可视化

对于 Python 用户,BokehPlotly库非常适合创建仪表板。对于 R 用户,确保查看 RStudio 的Shiny包。你的仪表板项目应突出以下重要技能:

  • 包含与客户需求相关的指标

  • 创建有用的特征

  • 合理的布局(“F 型”扫描模式)

  • 创建最佳刷新率

  • 生成报告或其他自动化操作

  1. 机器学习

机器学习项目是数据科学组合中的另一个重要组成部分。在你开始构建深度学习项目之前,先停下来考虑一下。与其构建复杂的机器学习模型,不如从基础开始。线性回归和逻辑回归是很好的起点。这些模型更容易解释,并且可以与高层管理沟通。我还建议专注于具有业务影响的项目,例如预测客户流失、欺诈检测或贷款违约。这些项目比预测花卉类型更具现实意义。

机器学习

如果你是 Python 用户,请使用Scikit-learn库。如果你是 R 用户,请使用Caret包。你的机器学习项目应展示以下技能:

  • 选择特定机器学习模型的原因

  • 将数据拆分为训练集/测试集(k 折交叉验证)以避免过拟合

  • 选择正确的评估指标(AUC、调整后的 R²、混淆矩阵等)

  • 特征工程和选择

  • 超参数调优

  1. 沟通

沟通是数据科学的一个重要方面。有效地传达结果是区分优秀数据科学家与杰出数据科学家的关键。无论你的模型多么先进,如果你无法向团队成员或客户解释清楚,你将无法获得他们的认可。幻灯片和笔记本都是很好的沟通工具。将你的机器学习项目放入幻灯片格式中。你也可以使用 Jupyter NotebookRMarkdown 文件进行沟通项目。

Jupyter 沟通

确保了解你的目标受众是谁。向高管展示与向机器学习专家展示是非常不同的。确保掌握以下技能:

  • 了解你的目标受众

  • 展示相关的可视化图表

  • 不要让幻灯片上信息过于拥挤

  • 确保你的演示流畅

  • 将结果与业务影响(降低成本、增加收入)联系起来

确保在 Jupyter Notebooks 或 RMarkdown 文件中记录你的项目。然后,你可以使用 Github Pages 免费将这些 Markdown 文件转换为静态网站。这是向潜在雇主展示你的作品集的好方法。

保持积极,继续构建项目,你将迈向数据科学领域的工作。祝你求职顺利!

简介:John Sullivan 是数据科学学习博客 DataOptimal 的创始人。你可以在 Twitter 上关注他 @DataOptimal

相关:

更多相关话题