Skip to content

Latest commit

 

History

History
189 lines (95 loc) · 9.08 KB

want-to-become-a-data-scientist-part-1-10-hard-skills-you-need.md

File metadata and controls

189 lines (95 loc) · 9.08 KB

想成为数据科学家?第一部分:你需要的 10 项硬技能

原文:www.kdnuggets.com/want-to-become-a-data-scientist-part-1-10-hard-skills-you-need

想成为数据科学家?第一部分:你需要的 10 项硬技能

图片由作者提供

你可能会看到很多关于如何成为数据科学家的综合文章。它们提供了很多有用的信息,但可能会让人感到非常困惑。特别是作为初学者,你只想知道你需要了解什么,然后开始行动。


我们的前 3 个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织的 IT


这正是本博客的主题。我将介绍成为数据科学家所需的 10 项硬技能。

开始吧……

编程语言

如果你不知道如何用任何编程语言编程,你的第一步将是学习编程。我的推荐是 Python,因为它可以说是数据科学中最受欢迎的编程语言。

你还可以学习其他数据科学语言,如 R、SQL、Julia 等。

数学

有人说在编程世界中,数学是你不需要的一个话题。但我相信这是错误的。我参加过一个没有涉及数学方面的 BootCamp - 我确实意识到这在我的专业技能上带来了很大的弱点。

数据科学需要的数学领域包括线性代数、线性回归、概率和统计。学习数据科学背后的数学将对你的数据科学职业生涯大有裨益,并会被雇主注意到。

学习数学可能会让人感到紧张,因此我完全理解你的犹豫。阅读一下 如何克服数学恐惧并学习数据科学数学 来放松心情。

集成开发环境(IDE)

集成开发环境(IDE)是一种软件应用程序,提供了一个综合环境,其中包含专为软件开发设计的工具和功能。IDEs 将帮助你执行数据分析、可视化和机器学习任务。选择适合你的 IDE 更多的是根据你的个人偏好,例如,以下是:

你的 IDE 是你学习如何熟练掌握编程语言、学习数学及其他内容的地方。Jupyter Notebook 和 Visual Studio Code 是我的最爱!这些在你找到工作后也会非常有帮助,因为雇主期望你熟悉流行的 IDE。

随着时间的推移,编程变得更加简单,这归功于各种可用的库。这些库是你可以用来简化数据分析和机器学习过程的工具。

如果你决定学习 Python,以下是我建议你学习的库:

我在开始时提供这些库的列表,是因为在你的数据科学学习过程中,你会经常看到这些库。了解每个库提供的功能,你会看到它们的应用场景。例如,Matplotlib 可以用于数据可视化。

数据转换

如其所说——转换你的数据。数据转换是数据科学家一个重要的阶段,因为你会花大量时间将原始数据修改、调整并转换成可以用于分析和其他任务的格式。

你需要学习关于标准化、归一化、缩放、特征工程等内容。

你可以阅读的文章:数据转换:标准化与归一化

数据可视化

数据可视化是数据科学中的一个重要方面,因为你需要能够用多种方式传达你的发现,而不仅仅是编码。团队中的每个人可能都没有技术背景,因此以可视化的形式展示你的发现将有助于此,并且也有助于决策过程。

可以阅读:数据可视化最佳实践与有效沟通资源

机器学习

接下来你要学习的是机器学习。机器学习有许多方面,你不可能在所有方面都成为专家——但在这一领域中成为多面手仍然是有益的。做好准备,因为有很多东西需要学习。

你应该从基本概念开始,如监督学习、无监督学习、分类和回归任务。一旦你对这些有了较好的理解并能够区分它们,你就可以进一步了解不同的机器学习算法,如支持向量机和神经网络。

一旦你理解了机器学习模型,你需要学习:

  • 构建机器学习模型

  • 模型评估

  • 部署

  • 模型可解释性

  • 过拟合与欠拟合

  • 超参数调整

  • 验证和交叉验证

  • 集成方法

  • 降维

  • 正则化技术

  • 梯度下降

  • 神经网络与深度学习

  • 强化学习

正如我所说,这个领域有很多东西要学,所以建议你花时间练习!

这里有一篇文章可以帮助你:提升机器学习技能的 15 个顶级 YouTube 频道

大数据工具

拥有这些知识是很棒的,但一些工具可以将你的数据科学职业提升到一个新的水平。了解不同的技术,它们的应用场景及优缺点,将使你的数据科学之旅更加高效。

有很多工具和技术对任何从事数据工作的人都有很大帮助。然而,我将列出一些流行的工具,如 Apache SparkTensorFlowPyTorchHadoopTableauGit,等等。

云计算

云计算是数据科学一个非常重要的元素,因为你所做的所有项目和任务都会转变为产品。云计算服务提供可扩展的存储和计算能力,并提供便捷的工具和服务访问。

你需要了解一些云平台,如 Amazon Web ServiceMicrosoft Azure, 和 Google Cloud Platform

你还需要了解其他云计算方面的知识,如数据存储、数据库、数据仓库、大数据处理、容器化和数据管道。

阅读一下:

  • 云计算初学者指南

  • 如何利用云计算高效扩展数据科学项目

项目

我将把项目作为你需要掌握的最后一个硬技能,因为它展示了上述所有内容。不要仅仅因为想在简历上加点项目就去做一堆项目。是的,这是最终目标,但确保你完全理解你的项目。

在面试中,你将被问及你的项目、细节,你需要准备好用尽可能多的知识回答。利用你的项目展示你的技能,以及你如何识别自己的不足并加以改进。

请阅读:

  • 初学者的 5 个数据分析项目

  • 数据科学作品集中的 5 个高级项目

总结一下

我尽量将这篇文章精简到不让你感到过于负担。希望我已经成功地提供了足够的细节和资源,让你能够启动你的数据科学之旅!

请关注第二部分,了解成为数据科学家所需的软技能。

妮莎·阿娅 是一位数据科学家、自由技术写作人以及 KDnuggets 的社区经理。她特别关注提供数据科学职业建议或教程,以及数据科学相关的理论知识。她还希望探索人工智能如何有助于人类寿命的延续。作为一个热衷学习者,她寻求拓宽技术知识和写作技能,同时帮助指导他人。

相关主题