原文:
www.kdnuggets.com/2021/08/learning-path-changed-becoming-data-scientist.html
评论
图片来源:Karsten Würth 在 Unsplash
我对数据科学的热情开始于两年半前。我当时的工作与数据科学毫无关系。由于我有很多东西需要学习,因此职业转型对我来说是一个巨大的挑战。
经过两年充满学习和奉献的时间,我终于找到了我的第一份数据科学家的工作。我的学习旅程当然没有停止。在作为数据科学家的工作中,我学到了大量的新知识。
学习的部分没有变化。然而,我学习的内容和方式发生了巨大的变化。在本文中,我将详细阐述这些变化。如果你正在成为数据科学家的过程中,你可能会经历类似的情况。
需要强调的是,成为数据科学家需要不断学习。数据科学仍在发展,你需要时刻保持新鲜感。我认为数据科学还不是一个成熟的领域,因此新技术和概念不断被引入。
对于实际问题来说,1000 万行数据并不算多。
对我来说,最显著的变化是数据的规模。当我自学时,我使用的数据集最多只有 10 万行。我现在把它视为一个小数据集。数据的规模取决于你所工作的领域和问题。一般来说,对于实际问题来说,1000 万行数据并不算多。
使用大型数据集有其自身的挑战。首先,我需要学习可以处理这种数据集的新工具。在开始作为数据科学家工作之前,Pandas 对我来说已经足够。然而,它在大规模数据处理方面并不高效。
允许分布式计算的工具更受欢迎。Spark 是其中最受欢迎的工具之一。它是一个用于大规模数据处理的分析引擎。Spark 让你可以将数据和计算分布在集群上,以实现显著的性能提升。
幸运的是,可以使用 Python 代码运行 Spark。PySpark 是 Spark 的 Python API。它结合了 Python 的简单性和 Spark 的高效性。
另一个重大变化是从本地环境转到云端。当我在学习时,我在我的电脑上完成所有工作(即本地工作)。这对练习和学习已经足够了。
然而,公司本地操作的可能性极低。大多数公司在云端工作。数据存储在云端,计算也在云端进行,等等。
为了高效地完成工作,全面了解云工具和服务非常重要。虽然有很多云服务提供商,但主要的玩家是 AWS、Azure 和 Google Cloud Platform。我不得不学习如何使用他们的服务和管理存储在云中的数据。
作为数据科学家,我还经常使用的另一个工具是 git。我在学习时学会了基本的 git 命令。然而,在生产环境中工作则有所不同。Git 是一个版本控制系统。它维护了所有代码更改的历史记录。
Git 允许进行协作工作。你可能会作为团队的一员参与项目。因此,即使你在一个小型初创公司工作,git 也是必备技能。项目的开发和维护都使用 git。
Git 比看起来要复杂一些。然而,经过几个项目的实践,你会习惯它的。
工具并不是我学习过程中唯一的变化。我处理数据的方法也发生了变化。当你处理一个现成的数据集时,你在清理和处理数据方面能做的事情不多。例如,在机器学习任务中,你可以在几个简单的步骤后应用一个模型。
在你的工作中情况会有所不同。项目的很大一部分时间花在准备数据上。我所说的不仅仅是清理原始数据。清理原始数据也是一个重要的步骤。然而,探索数据中的潜在结构和理解特征之间的关系至关重要。
如果你在处理一个新问题,你还需要定义数据需求。这是另一个挑战,需要一套特殊的技能。领域知识是其中的一个重要部分。
特征工程比机器学习模型的超参数调优更为重要。超参数调优能够实现的提升是有限的,因此你只能在一定程度上提高性能。另一方面,一个信息丰富的特征有潜力显著改善模型。
在我开始做数据科学家之前,我专注于理解机器学习算法以及如何调整模型。现在我大部分时间都花在准备数据上。
我所说的“准备好”包括很多步骤,例如
-
清理和处理数据
-
数据重新格式化
-
探索和理解数据
统计知识对这些步骤非常重要。因此,我强烈建议你提升这方面的知识。这将对你的数据科学职业生涯大有帮助。
学习数据科学有大量资源。你可以利用它们来提高你在数据科学任何基础领域的技能。然而,这些资源无法提供真实的工作经验。这没有错。只需在获得第一份工作时准备好学习不同的材料即可。
感谢阅读。如果您有任何反馈,请告知我。
简介: Soner Yildrim 是一位数据科学爱好者。查看他的作品集。
原文。已获许可转载。
相关内容:
-
是什么让我花了那么久才找到数据科学家的工作
-
你投资组合中最好的数据科学项目
-
数据科学家必须了解的 10 个统计概念