原文:
www.kdnuggets.com/2021/11/5-things-set-data-scientist-apart-other-professions.html
由 pressfoto 提供的照片,来源于 www.freepik.com
我最近写了一篇文章,标题为 数据科学家、数据工程师及其他数据职业解析,在文章中我尽力简明扼要地定义和区分了五种流行的数据相关职业。每种职业在文章中都进行了非常高水平的单句总结,数据科学家则被描述如下:
1. Google 网络安全证书 - 快速进入网络安全职业领域
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织 IT 工作
数据科学家主要关注数据、从数据中提取的见解以及数据能够讲述的故事。
除了我为每个职业写的额外几段文字外,我试图找出一个统一的区别特征,这五个特征可以整合成一个流程图,或许能帮助有志于数据行业的人确定哪个职业最适合他们。
我收到一些读者的反馈,明显表明我过于强调预测分析作为数据科学家职业的定义特征,这可能让人觉得数据科学家比其他职业更多地从事预测分析,而其他数据专业人员则完全不涉及这方面的工作。
这种建设性的批评自然让我思考:究竟是什么使数据科学家与其他数据专业人士有所区别?数据科学家使用了许多技术技能、特定的技术语言、系统和工具。此外,数据科学家以及其他各种职业的专业人员也运用了许多软技能来提升职业表现。那么,成功的数据科学家有哪些固有特征,是数据科学家与生俱来的,还是可以在进入这一职业后培养的?
以下是我提出的五个方面,当它们综合在一起时,有助于使数据科学家与其他职业区分开来。
让我们先说明一点,所有的数据科学家角色都是不同的,但它们都有一些共同的联系点,希望这些观点能够帮助你连接这些联系点。
我因为对这个特点的关注而受到了一些批评。然而,我会进一步强调,预测分析思维是数据科学家的主要定义特征之一,可能比其他任何特征都更重要。它是唯一的定义特征吗?当然不是。它是否应该在流程图中用于区分数据科学家与其他职业?回过头来看,可能不应该。
数据科学家进行预测分析吗?绝对是。非数据科学家也会吗?当然。然而,如果我把数据科学家放在预测分析的跷跷板一端,把*<插入其他数据专业人员>*放在另一端,我预计数据科学家会始终落地。
但这不仅仅是预测分析在特定情况中的应用;这是一种思维方式。而且这不仅仅是分析型思维(减去预测),而是一种始终考虑如何利用我们已经知道的来发现我们尚未知晓的事物的思维方式。这表明预测是方程式的一个重要组成部分。
数据科学家不仅仅考虑预测,从我的观点来看,始终以这种思维方式工作是这个角色的定义特征之一,而许多其他职业,无论是否与数据相关,都不具备这种特征。那些具备这种特征的其他职业,可能会将其列在职业价值的较低位置。
显然,仅仅利用我们所知道的来发现我们不知道的还不够。数据科学家必须具备其他角色不一定需要的好奇心(请注意,我没有说其他角色绝对没有这种好奇心)。好奇心几乎是预测分析思维的另一面:预测分析思维在寻找X与Y的关系,而好奇心则是在确定Y是什么。
-
“我们如何增加销售?”
-
“为什么某些月份的流失率高于其他月份?”
-
“为什么这需要像那样做?”
-
“如果我们对 Y 做 X,会发生什么?”
-
“X 是如何融入这里发生的事情中的?”
-
“我们尝试过...吗?”
-
诸如此类...
要成为一名有用的数据科学家,必须具备自然的好奇心,事情就是这样。如果你是那种早上醒来后整天都不会考虑宇宙奇观的人——无论从哪个层面——那么数据科学可能不适合你。
在失败之前,好奇心为猫的长期成功职业生涯做出了贡献。
这里有一段严肃的哲学观点:世界是一个复杂的地方。一切以某种方式相互连接,远超显而易见的层面,导致现实世界的复杂性层层叠加。复杂系统与其他复杂系统互动,从而产生它们自身的额外复杂系统,宇宙如此运作。这种复杂性游戏不仅仅是认识大局:这个大局如何融入更大的背景,等等。
但这不仅仅是哲学层面的。数据科学家认识到这个现实世界的无限复杂网络。他们对相关的互动,无论是显性还是隐性,都非常感兴趣,因为他们在解决问题的过程中要了解尽可能多的相关信息。他们寻找情况依赖的已知已知、已知未知和未知未知,理解任何给定的变化都可能在其他地方产生意想不到的后果。
数据科学家的工作是尽可能多地了解他们相关系统的情况,并利用他们的好奇心和预测分析思维来考虑这些系统操作和交互的尽可能多的方面,以确保即使在调整时也能平稳运行。如果你不能理解为什么没有一个人能够完全解释经济如何运作,那么数据科学可能不适合你。
现在我们到了必需的“跳出框框思考”特质。难道我们不鼓励每个人在某种程度上这样做吗?当然是的。但我在这里的意思有所不同。
记住,数据科学家并不是在真空中工作;我们与各种不同角色合作,并在我们的工作中遇到各种不同的领域专家。这些领域专家对他们特定领域有特定的看法,即使在跳出框框思考时也是如此。作为数据科学家,凭借一套独特的技能和一种特定的思维方式——我在这里尽力描述的——你可以从领域专家所在的框框之外来解决问题。你可以成为用新视角看待问题的新鲜眼光——当然,前提是你对问题有足够的理解。你的创造力将帮助你想出新的想法和视角。
这并不是要贬低领域专家;实际上,恰恰相反。我们数据科学家是他们的支持,通过带来一套经过训练的技能,我们(希望)能够在支持角色中带来新的视角,从而帮助领域专家在他们的领域中出类拔萃。这种新视角将由数据科学家的创造性思维驱动,这种创造力与好奇心相结合,将导致能够提出问题并追寻答案。
当然,我们需要技术、统计和其他技能来跟进这些问题,但如果我们没有创造力来想到有趣和非显而易见的方式来调查并最终提供答案,这些技能也将毫无用处。这就是为什么数据科学家必须天生具有创造力。
每个人都需要能够有效地与他人沟通,无论他们的社会地位如何。数据科学家也不例外。
但即便如此,数据科学家在向其他利益相关者解释他们的工作时,往往还需要进行一些辅助,因为这些利益相关者可能并未 — 也可能无意 — 完全融入统计分析的电影宇宙™。数据科学家必须能够将某人从 A 点讲解到 B 点,即使这个人对这两个点到底是什么知之甚少。直言不讳地说,讲故事就是能够将数据和你的分析过程编织成一个现实的叙述:我们是如何从这个到那个的。
这不仅仅是陈述事实;数据科学家必须看到利益相关者在方程中的位置,并使叙述旅程相关——也许通过有用的视觉图像或其他道具来帮助完成所谓的交易。
这种讲故事方式不同于虚构故事;它更像是“华丽的解释”,或者是针对听众提供直观的解释。你不会给五岁的孩子讲斯蒂芬·金的故事入睡,就像你不会给从事研发的人讲解供应链指标的枯燥、冗长的叙述一样。要注意你的受众。
这种讲故事方式也不是说服性质的;它是解释性的。我们不是数据政治家,我们是数据科学家。科学家为了使他人屈从于自己的意愿而歪曲统计数据,永远不会有好结果。那种事留给当选官员去做吧。
我希望这有助于描绘出我认为成功的数据科学家应具备的重要特征。我祝愿你在职业生涯中一切顺利。
Matthew Mayo (@mattmayo13) 是数据科学家和 KDnuggets 的主编,KDnuggets 是一个重要的在线数据科学和机器学习资源。他的兴趣包括自然语言处理、算法设计与优化、无监督学习、神经网络以及机器学习的自动化方法。Matthew 拥有计算机科学硕士学位和数据挖掘研究生文凭。你可以通过 editor1 at kdnuggets[dot]com 联系他。