原文:
www.kdnuggets.com/2021/12/what-does-a-data-scientist-do.html
评论
1. Google 网络安全证书 - 快速开启网络安全职业生涯
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织 IT
你真的无法避免它,对吗?无论你看向哪里,它都会出现。你的 LinkedIn 动态、招聘市场、新闻推送、教育项目都在试图吸引你的注意(以及你的学费)。但数据科学到底是什么?它通常被描述得非常模糊,令人不甚满意。这个指南将尽量避免这些模糊之处,为你提供最直接、最清晰的答案,“数据科学是什么?”和“数据科学家做什么?”。
所以,数据科学家做什么?为回答这个问题,我们将带你了解在数据科学工作中的各个方面。
数据科学的作用是利用每家公司现在收集的大量数据,将其转化为可理解和有用的信息。这一数据转化过程是通过使用诸如机器学习(ML)、人工智能(AI)和统计分析等技术来实现的。所有这些都旨在解决现实世界的问题。现实世界通常指的是商业问题。这意味着公司使用数据科学来做出更合理的商业决策并获得更多的利润。
既然我们已经介绍了数据科学家的角色,现在是时候询问这在实践中意味着什么了。数据科学家做什么?一个直接的问题需要直接的回答。
数据科学家:
-
确定商业问题
-
收集数据
-
通过处理和清理数据来为分析做准备
-
存储数据
-
分析数据以发现趋势和模式
-
构建、训练和验证模型
-
提供洞察
数据科学领域中包含所有技能的最一般的职位名称就是数据科学家。成为数据科学家包括所有上述的责任。然而,这并不是你在数据科学领域能拥有的唯一职位名称。
还有许多其他职位名称,这些职位依赖于资历、公司组织结构、规模等。最重要的是,这些职位名称取决于它们关注的数据科学领域。你可以将数据科学家视为数据科学的原始汤,所有其他职位名称都源自于此。
通常,数据科学中的职位可以分为两类:
-
数据提供者
-
数据用户
我们博客中有非常详细的信息,关于每个数据科学职位名称的帖子。使用该帖子查找每个职位的详细描述和所需技能。
当我们谈论数据提供者时,我们讨论的是专注于原始数据、数据基础设施、数据加载和数据库的工作。
本类别中的数据科学职位包括数据建模师、数据工程师、数据库管理员、数据架构师和软件工程师。他们以某种方式确保数据科学中另一类别的工作(数据用户)能够不间断地访问数据,这为数据用户构建的基础提供了支撑。
当然,所有这些数据提供者职位之间的目的各不相同。
数据建模师
例如,数据建模师创建概念性、逻辑性和物理性的数据库模型,并参与数据库实施。
数据工程师
数据工程师更关注数据基础设施、其开发和维护,包括数据仓储和数据的提取、转换和加载(ETL/ELT)。
查看我们关于数据工程师与数据科学家的帖子,了解数据科学家和数据工程师的相似之处和不同之处。
数据库管理员
数据库管理员在数据基础设施的基础上,确保数据和数据库的完整性和安全性。这包括授予和撤销对数据的访问权限、备份数据库、恢复数据等。
软件工程师
在上述职位提供的数据基础设施之上,是软件工程师。他们设计、开发、测试和维护软件,作为数据用户与底层数据和数据基础设施交互的接口。
数据架构师
数据架构师提供全局视角,并协调所有这些数据提供者。他们的工作是理解公司的流程,以便他们可以规划、实施和改进公司数据处理基础设施的架构。这意味着提供解决方案,说明数据如何在不同的入口点进入公司。数据以什么格式进入,使用何种软件进行处理(如果有的话),以及数据如何转换和加载到数据库或数据仓库中。数据如何被公司使用,直到数据成为公司的输出。
数据用户利用现有数据和数据基础设施向各个股东提供信息。他们是数据提供者与决策者之间的桥梁,后者通常技术背景较少。
数据科学中的数据用户,除了数据科学家之外,还包括数据分析师、统计学家、BI 开发人员、业务分析师、量化分析师、市场科学家、机器学习工程师、研究科学家等。他们在公司中的目的各不相同。
数据分析师
例如,数据分析师专注于报告、常规分析和临时分析。他们使用数据并将其总结成报告格式。这使得技术水平较低的用户能够利用这些数据,了解公司业务的各个方面。数据分析师主要使用历史数据。
统计学家
统计学家与数据分析师类似,他们也分析数据。然而,他们更关注预测未来,而非解释过去。他们使用数据来预测将会发生什么,而不是已经发生的事情。为此,他们应用统计方法,如假设检验和概率。因此,统计学家与数据科学家也类似。区别在于,他们不像数据科学家那样构建模型,仅专注于数据科学中的统计部分。
BI 开发人员
BI 开发人员负责开发(设计、构建和维护)BI 工具中的仪表板,用于数据可视化和报告。他们在制作报告方面类似于数据分析师。然而,他们还具备一些工程技能,用于 ETL 数据和构建用户界面,就像数据工程师和软件工程师分别做的那样。
业务分析师
业务分析师专注于报告,类似于数据分析师。然而,他们通常专注于内部报告,而这并非数据分析师总是如此,以检测公司业务流程中的弱点并加以改进。
量化分析师
量化分析师通常是专注于金融数据的数据科学家。他们会分析这些数据并构建涉及各种金融市场的模型,如贷款、股票、债券、外汇等。他们的分析将用于决定交易策略、可行的投资和风险管理。
市场科学家
市场科学家是专注于一种数据类型的数据科学家。在这种情况下,是市场数据。像任何数据科学家一样,他们会分析这些数据,尝试寻找模式和趋势,以解释和预测客户行为,从而帮助解决市场营销和销售问题。
机器学习科学家
机器学习科学家是数据科学家的某种延伸。虽然数据科学家更关注模型的理论部分,数据工程师则将这些模型付诸实践。他们将原型模型部署到生产中。这涉及工程化的 AI 软件和算法,使机器学习模型在实践中发挥作用。
研究科学家
虽然机器学习工程师是这类数据科学家的实践者,但研究科学家则是理论家。研究科学家的工作是理解计算原理及由此产生的问题。为了破解这些难题,他们会改进或创造全新的算法和编程语言。
在下图中,有一个关于你可能的data scientist career path的示例。这并不意味着这是一个单向的过程(它完全可以不是一个过程!)或者这些职位名称不能以不同的方式互换和移动。这只是一个概述,先看看它,然后我们将附上详细的解释。
数据科学处于统计学、数学和计算机科学的交汇点,也涉及其他学科。因此,至少在这些领域接受过教育是一个良好的起点。
然而,我们不能编写适用于每个候选人和职位广告的指南。一般的经验法则是:获得至少一个本科(BS)学位,以便在数据科学就业市场中拥有一个良好的起点。然后结合工作经验。良好的教育和经验平衡始终是成功的配方。当然,获得更多教育和更多经验总能让你处于更好的位置,这一点并不令人惊讶。让我们看看教育/学位要求是什么:
-
本科/硕士学位
-
博士学位
-
训练营
本科/硕士学位
如果你想在数据科学领域建立职业,最好拥有至少一个学士学位。拥有本科或硕士学位对于获得数据科学中的任何工作是有益的,大多数职位广告中都要求这种教育水平。你的学位应在相关的定量领域,如统计学、数学、计算机科学、工程、信息技术、经济学、编程等。当然,这取决于职位名称和资历水平。
此外,根据工作,拥有不同领域的学位可能会带来好处。也许是人文学科,如哲学、社会学、心理学。如果你想成为一个试图理解和预测人类行为的市场营销科学家,这些学科可能会很有用(有时甚至是必需的!)。研究科学家有时可以在计算原理方面工作,这些原理可能与伦理和人类行为有很深的联系。
根据工作描述和职位 seniority,拥有金融、商业或类似学位也是有益的。也许你处理的是金融数据,并且你在层级结构中处于较高的位置,那么除了技术技能外,领导力、商业智慧和教育背景也变得很重要。
虽然学士学位往往是招聘广告中要求的最低教育水平,但有时它并不是唯一的要求。
博士学位
拥有博士学位不会影响你获得上述任何职位的机会。更多的教育总是更好的。
然而,有时候这个水平不仅是有利的,而是必需的。例如,如果你想从事机器学习工程师或其他数学密集型工作,获得博士学位是个好主意。
此外,研究科学家需要在计算机科学理论、原理和研究方法上有扎实的基础。这就是为什么这个职位通常需要博士学位的原因。
训练营
尽管招聘广告中通常要求正式教育背景,但这并不意味着它总是必要的。如果你在数据科学的某些方面有经验,但没有正式的教育背景,这并不意味着你不能作为数据科学家工作。一般来说,职位越高,你的教育背景就越不重要。重要的是你在之前的工作中做了什么,你如何做到的,以及你可以带到新工作的技能。
这里有一个进退两难的问题。你需要工作来获得经验和提升技能。如果你没有经验和技术技能,你就无法找到工作。幸运的是,有一个解决方案:训练营。
这些是获得数据科学相关技能的良好起点。它们不要求技术类的学士或硕士学位。这对任何没有正规教育背景但想要开始数据科学职业的人来说是很好的选择。它们也适合那些通过实践进入数据科学领域的人。这样,他们可以获得一个更加结构化和理论化的背景,来补充他们已经在实践中所做的工作或提升他们已经存在的技能。
说到工作经验,开始获得工作经验总是最难的。一旦你开始工作并在工作中学习,换工作和拓宽专业领域就变得更容易了。建立一个坚实的基础是很重要的。在数据科学领域,人们通常从数据分析师做起。
从那时起,他们可以选择我们之前讨论过的两个方向:作为数据提供者或数据用户。关于上图的一个重要事项是,随着你从左到右移动,职位的资历水平上升,你的薪水也会上升。稍后我们会讨论薪资问题。首先,让我们举几个例子看看你的职业生涯可能是什么样的。
假设你从数据分析师开始。经过几年处理数据并找到自己关于数据库的解决方法后,你理解了数据库原理,因此你决定转型成为数据建模师或数据库管理员。在这些职位中的工作能让你获得更多经验,你参与了几个关于数据基础设施的项目。然后你获得晋升,例如成为一名数据架构师。
或者,也许你从统计师开始。经过几年在公司工作后,你决定是时候改变一下了。但你非常喜欢你现在所在的公司。而且你去年参与的几个市场营销项目也让你非常喜欢。于是,你转到市场营销部门,只处理市场营销数据,成为一名市场营销科学家。然后,又到了改变的时候;你对机器学习产生了兴趣,成为了一名数据科学家。几年后,你希望回到学校获得博士学位。你辞去了工作,专注于攻读博士学位。这与你丰富的工作经验相结合,让你意识到你想以不同的、也许是理论的方式为数据科学做贡献。于是,你成为了一名研究科学家。
这些只是你职业生涯可能的几种例子。任何与实际人物及其职业生涯的相似之处纯属巧合。你的职业生涯将取决于你的背景、能力、兴趣、你在(或其他)公司的机会、公司的规模、组织结构、灵活性,以及,没错,还有一点运气。
你选择的任何方式从长远来看都可能对你有利。记住,这些工作都是数据科学的一部分,因此在数据科学的某个领域拥有更多的经验,只会对你有利,尤其是当你想在数据科学领域中尝试一些新的事物时。
当然,要获得经验,你首先需要一份工作。要获得工作,你必须经历常常乏味的面试过程。为了使这个过程尽可能无痛,你需要做好准备。虽然没有什么能比得上实际面试的经验,但通过我们的 编码 和 非编码 面试问题,你将会有一个良好的开始。
在数据科学领域,以下技能是必不可少的:
-
编码使用 SQL、R、Python、Java、C 系列等语言
-
处理数据,包括收集、清洗和分析数据
-
数据库设计用于了解如何获取和存储数据
-
统计分析用于从数据中获取洞察
-
数学在数据分析和指标计算中使用
-
建模用于设计和构建模型
-
机器学习与人工智能用于部署模型
查看我们关于最受欢迎的数据科学技能的文章,了解作为数据科学家必须具备的最受欢迎的数据科学技术技能和业务技能。
在选择职业时,除了兴趣和个人情况,薪资也是一个重要因素。
根据 Jobted 引用的美国劳工统计局(BLS)的数据,美国的年平均薪资约为 53.5k。
那么数据科学领域的职位与这些相比如何呢?例如,Glassdoor 数据显示数据分析师的平均年薪为 $70k。即使这是数据科学中(平均而言)薪资最低的职位,它的薪资仍比美国平均水平高出 $15k。这高出 30%!
作为数据科学家,这是一份薪资最高的职位之一,平均年薪可达 $139k,是平均薪资的 1.5 倍以上。即使是最低报告薪资也为美国平均水平的两倍,而薪资最高可达 $171k。而这还不是数据科学中薪资最高的职位。
教育、知识和技能确实能带来回报,如果你在考虑是否投资于职业发展或转行。以下是职位概况和以美元计的平均薪资。
数据分析师 | $70k |
---|---|
数据库管理员 | $84k |
数据建模师 | $94k |
软件工程师 | $108k |
数据工程师 | $113k |
数据架构师 | $119k |
统计学家 | $89k |
商业智能(BI)开发者 | $92k |
营销科学家 | $94k |
商业分析师 | $77k |
定量分析师 | $112k |
数据科学家 | $139k |
研究科学家 | $142k |
机器学习工程师 | $189k |
根据你工作的公司,你可以期待这些基本薪资会通过现金和股票奖金、健康和人寿保险等不同的福利增加。
你可以在我们的博客文章之一中找到有关数据科学薪资的更详细信息 - 数据科学家赚多少钱?。
通常,需求量高并获得相当可观的薪资是有代价的。数据科学并不是一帆风顺的。虽然数据科学家通常每周工作 40 小时,但有时也需要加班。再说了,这取决于公司、组织、行业以及其他众多因素。但大多数情况下,这与工作描述及其周期性特征有关,这意味着你会在完全放松和轻松的时期与需要每周工作 50-60 小时的高峰期之间进行平衡。
这是因为数据科学任务通常涉及项目,这意味着在严格的截止日期内解决问题。随着截止日期的临近,工作量通常会增加,这时数据科学家不得不加班。
拥有相关的教育和技术技能当然是成为数据科学家的前提。要完成这第一步,请参考我们在讨论如何从零开始成为数据科学家时提供的有用建议。但这是否能让你成为一个出色的数据科学家呢?未必。
数据科学的关键在于解决现实生活中的问题。你可以拥有世界上所有的技术技能,但如果你不能运用这些出色的技能来提出解决方案,那又有什么意义呢?或者你提出了一个解决方案,但没有人理解和使用它。你真的解决了问题吗?没有,你并没有。
技术技能用于解决问题,而磨练这些技能的最佳方法之一是创建自己的数据分析项目。然而,你还需要软技能。提出解决方案有点像夹在数据科学家工作中的其他两个重要阶段之间。
-
理解问题
-
提出解决方案(通过技术技能)
-
提出解决方案
要成为一名出色的数据科学家,你需要:
-
要幼稚
-
沟通良好
-
擅长团队合作
-
对跨学科性感到自如
保持幼稚
我们不是说要你成为一个被宠坏的孩子。保持幼稚意味着保持好奇心、提问、渴望学习和富有玩心。
你需要保持好奇心,接受自己并不理解所有事物的事实,并愿意学习。为了做到这一点,你必须像孩子一样:不断提问直到得到满意的答案。你需要成为那个“为什么的人”。只有这样,你才能理解业务问题、不同人的需求、部门的需求以及客户的需求。一旦你理解了这些,运用你的技术技能就会变成一种技术性工作。
当你提出解决方案时,你需要富有创意和想象力地展示你的、可能非常复杂的解决方案,以便他人能够理解并使用它。
沟通
沟通是第一项技能的自然延伸。你需要高效沟通,提出正确的问题,以易于理解的方式呈现你的想法和解决方案。当人们感受到你愿意接受建议、倾听他们并尊重他们时,他们会更加投入项目。他们会愿意更详细地解释他们的(业务)需求和问题,这使你更容易理解你的职责要求。
当然,如果你无法解释解决方案的工作原理、如何使用户受益以及他们如何使用它,那么提出一个卓越的数据科学解决方案是没有意义的。因此,在展示你的解决方案时,沟通是必要的。
团队合作
不论幸运与否,你将会与真实的人一起工作,解决他们的实际问题。你不会仅仅在你的部门内部工作,也不会只和你部门的人合作。你会与来自不同背景、拥有不同技术技能、专业领域和经验的人合作。要成为一名成功的数据科学家,你必须理解他人,对他们有耐心,具备灵活性,并适应不同的情况和方法。
创造良好的工作氛围对公司、团队以及你自己都大有裨益。可靠、负责任,并愿意帮助同事的态度总是受到欢迎的。
跨学科能力
与(不同)团队中的人员合作意味着你将与不同水平和领域的专家一起工作。这是一个学习的机会。这时候跨学科能力就派上用场了。
一位对数据科学严格范围之外一无所知的数据科学家无法成为优秀的数据科学家。跨学科能力会让你更快地理解和解决问题。你会更清晰地呈现解决方案。了解业务、营销、报告、法律或你所在行业的任何其他方面,都会使你成为非常受欢迎的雇员。能够在技术部门和非技术部门之间架起桥梁的专家是稀缺且非常有价值的。
数据科学是当今就业市场上最热门的领域之一。对数据科学家的需求很高,但竞争也非常激烈。
这意味着成为一名数据科学家并不容易。然而,这也并非不可能。本指南是帮助你决定数据科学是否适合你的其中一个工具。总的来说,以下是获取数据科学工作并取得成功的步骤:
-
获得计算机科学或其他定量领域的教育背景。
-
提升你的技术技能,例如编程、数据分析、数据库设计和模型构建。
-
认真准备工作面试,这意味着回答尽可能多的技术和非技术问题,研究公司及你申请的职位。
-
提升你的软技能。
相关: