原文:
www.kdnuggets.com/2021/10/tripled-my-income-data-science-18-months.html
图片由Karolina Grabowska提供
大约 18 个月前,由于 COVID-19 疫情,我失去了工作。我在大学期间兼职担任辅导员。我从辅导中获得的收入用于支付食物、汽油和汽车等费用。
在政府对整个国家实施封锁限制后,我无法继续教学。我也不能去大学,只能在家学习。
尽管一开始这似乎很糟糕,但我意识到不去上大学和工作使我腾出了很多时间。
我在这段时间开始着手扩展我的技能。经过一些研究,我发现了一个看起来很有趣的机器学习在线课程。
那是我完成的第一个在线课程。
之后,我把大部分时间花在了构建项目、学习编码和获得在线认证上。
现在——18 个月过去了,我凭借在数据科学和分析领域的知识建立了多个收入来源。
我首先以数据科学实习生的身份加入了一家公司,现在已全职工作在那里。
起初,我预期我的工作主要是模型构建。
然而,一旦我加入后,我意识到我的工作只有大约 10%是模型构建。其余时间,我和我的团队在寻找新的解决方案来解决业务问题。
经常,这些问题甚至不需要机器学习来解决。数据解决方案可能只是将业务逻辑转化为简单的 SQL 查询。
我每天的工作涉及回答这样的问题:
-
我们如何利用数据来查找关于公司 A 竞争对手的信息?
-
我们已经建立了一个客户流量预测模型。我们可以识别哪些商业用例来测试这个模型?它在生产环境中的表现是否与在测试环境中的一样?
-
我们如何持续改进客户的细分和绩效?我们是否能够从可用的数据中推断出现实场景?
这是对我日常工作的一种非常抽象的描述,但我想强调的是,创建数据科学解决方案并不仅仅是模型构建的开始和结束。
如果你是一个有志成为数据科学家的新手,我建议你获得一些你想从事的行业领域的知识。
我写下了我在数据科学领域的经验。
如果我在工作中构建一个项目,我会在 Kaggle 上找到类似的数据集,重复分析,并围绕它创建一个教程。
我最初开始编写和发布数据科学教程以增强我的个人作品集。
撰写关于我工作的文章是我与其他有志于数据科学的人联系的一种方式。它也是展示我编码和构建机器学习模型能力的一种方式。
起初,我从未期望通过我的写作获得报酬。我只是认为这是一个很好的方式来提升我的数据科学作品集。
然而,在过去的一年里,最初作为爱好的事情开始带来了收入。
现在,我通过简单地创建与数据相关的教程、项目以及撰写我的经验来赚取被动收入。
当我开始在数据科学社区内建立在线存在时,我开始接到多个自由职业的邀请。我为客户建立了机器学习模型,创建了竞争对手分析报告,并撰写了数据科学文章。
当我最初想到自由职业时,我想象着需要在一个在线平台上竞争和竞标项目。
然而,我所有的自由职业客户都是在阅读我的文章或查看我的作品集项目后联系我的。
几个月前,我建立了一个聚类算法,并在线发布了一个教程。第二天,有人联系我,询问我是否有兴趣为他们的客户构建一个聚类模型。
自由职业让我掌握了很多在我通常工作领域之外的技能。
在我的公司中,我处理的数据通常以某种预处理格式出现,我使用 SQL 和 Python 来查询数据并加以利用。
然而,在自由职业过程中,客户的数据格式非常不同。大部分数据未经过处理或结构化,我花了很多时间来搞清楚数据集之间的关系并理解它们。
我还需要收集外部数据来进行分析,这通常涉及到抓取第三方网站并使用开源工具。
我觉得自由职业让我接触到在日常工作中没有的知识,并且我能够在每个项目中学到新东西。
我在上面提到过我参加了一个数据科学在线课程,事情从那时开始发生了变化。你可能会想知道怎么回事。
说实话,在参加我的第一个数据科学在线课程后,我感到迷茫。我花了大约一个月的时间学习不同的算法并使用 Scikit-Learn 训练模型。
我完全不知道接下来该怎么做。
我开始阅读关于那些没有硕士学位或任何专业资格却成功获得数据科学工作的人的文章。我意识到领域知识的重要性以及利用现有数据解决问题的必要性。
我并不需要建立最准确的模型或理解模型背后的算法。
我意识到,对我来说最重要的技能是利用数据解决问题的能力。这意味着我必须超越机器学习算法。
我参加了商业分析和机器学习工程的课程。我花了更多的时间学习编码,而不是理论。我花时间学习 SQL 和数据处理。
然后,我通过网络抓取从在线网站收集了自己的数据。我利用这些数据解决了一个问题,并用它构建了一个简单的机器学习网页应用。
通过这种方式,我逐渐获得了成为全栈数据科学家所需的技能。
即使在我工作的数据分析团队中,如果有任何超出我们日常工作范围的项目(需要外部数据收集或新算法的项目),我通常是被分配到这些项目的人。
作为一个有抱负的数据科学家,在线有很多资源可供使用。实际上,太多了,以至于你不知道选择什么。
然而,大多数强调都集中在模型构建上。
虽然了解模型构建和训练的基本原理很重要,但大多数可用的工作要求你超越这一点。
实际需求是能够利用现有数据解决问题的人。
Natassha Selvaraj 是一位自学成才的数据科学家,热衷于写作。你可以通过 LinkedIn 与她联系。