原文:
www.kdnuggets.com/2018/06/5-data-science-projects-hired.html
作者:约翰·沙利文,DataOptimal
你已经在参加 MOOC 课程并阅读了许多教科书,但现在该怎么办?获得数据科学工作可能看起来很令人畏惧。展示你的技能的最佳方法是制作一个作品集。这向雇主展示了你能够运用你所学的技能。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作
为了展示这些技能,以下是你的作品集中 5 种数据科学项目:
- 数据清洗
数据科学家可以预计在新项目中花费多达 80% 的时间在 数据清洗 上。这是团队中的一个重大痛点。如果你能展示你在数据清洗方面的经验,你将立即变得更有价值。要创建数据清洗项目,找到一些杂乱的数据集,并开始清洗。
如果你使用 Python,Pandas 是一个很好的库,如果你使用 R,你可以使用 dplyr 包。确保展示以下技能:
-
导入数据
-
合并多个数据集
-
检测缺失值
-
检测异常
-
填补缺失值
-
数据质量保证
- 探索性数据分析
数据科学的另一个重要方面是探索性数据分析(EDA)。这是一个生成问题并通过可视化进行调查的过程。EDA 允许分析师从数据中得出结论,从而推动业务影响。它可能包括基于客户细分的有趣见解,或基于季节性影响的销售趋势。通常,你可以发现一些最初没有考虑到的有趣发现。
一些用于探索性分析的有用 Python 库包括 Pandas 和 Matplotlib。对于 R 用户,ggplot2 包将非常有用。一个 EDA 项目应该展示以下技能:
-
能够提出相关的问题进行调查
-
识别趋势
-
识别变量间的协变关系
-
使用可视化(散点图、直方图、箱线图等)有效地传达结果
- 交互式数据可视化
交互式数据可视化包括仪表板等工具。这些工具对数据科学团队和更具业务导向的最终用户都很有用。仪表板使数据科学团队能够协作,共同提取见解。更重要的是,它们为面向业务的客户提供了一个交互式工具。这些客户关注战略目标,而非技术细节。数据科学项目的最终交付物通常是仪表板形式。
对于 Python 用户,Bokeh和Plotly库非常适合创建仪表板。对于 R 用户,确保查看 RStudio 的Shiny包。你的仪表板项目应突出以下重要技能:
-
包含与客户需求相关的指标
-
创建有用的特征
-
合理的布局(“F 型”扫描模式)
-
创建最佳刷新率
-
生成报告或其他自动化操作
- 机器学习
机器学习项目是数据科学组合中的另一个重要组成部分。在你开始构建深度学习项目之前,先停下来考虑一下。与其构建复杂的机器学习模型,不如从基础开始。线性回归和逻辑回归是很好的起点。这些模型更容易解释,并且可以与高层管理沟通。我还建议专注于具有业务影响的项目,例如预测客户流失、欺诈检测或贷款违约。这些项目比预测花卉类型更具现实意义。
如果你是 Python 用户,请使用Scikit-learn库。如果你是 R 用户,请使用Caret包。你的机器学习项目应展示以下技能:
-
选择特定机器学习模型的原因
-
将数据拆分为训练集/测试集(k 折交叉验证)以避免过拟合
-
选择正确的评估指标(AUC、调整后的 R²、混淆矩阵等)
-
特征工程和选择
-
超参数调优
- 沟通
沟通是数据科学的一个重要方面。有效地传达结果是区分优秀数据科学家与杰出数据科学家的关键。无论你的模型多么先进,如果你无法向团队成员或客户解释清楚,你将无法获得他们的认可。幻灯片和笔记本都是很好的沟通工具。将你的机器学习项目放入幻灯片格式中。你也可以使用 Jupyter Notebook 或 RMarkdown 文件进行沟通项目。
确保了解你的目标受众是谁。向高管展示与向机器学习专家展示是非常不同的。确保掌握以下技能:
-
了解你的目标受众
-
展示相关的可视化图表
-
不要让幻灯片上信息过于拥挤
-
确保你的演示流畅
-
将结果与业务影响(降低成本、增加收入)联系起来
确保在 Jupyter Notebooks 或 RMarkdown 文件中记录你的项目。然后,你可以使用 Github Pages 免费将这些 Markdown 文件转换为静态网站。这是向潜在雇主展示你的作品集的好方法。
保持积极,继续构建项目,你将迈向数据科学领域的工作。祝你求职顺利!
简介:John Sullivan 是数据科学学习博客 DataOptimal 的创始人。你可以在 Twitter 上关注他 @DataOptimal。
相关: