原文:
www.kdnuggets.com/2021/12/5-key-skills-needed-become-great-data-scientist.html
作者:Sharan Kumar Ravindran,高级经理(数据科学)
成为成功的数据科学家并不需要天赋。然而,成功的数据科学家需要一些技能。这些关键技能可以通过适当的培训和实践获得。本文将分享一些重要技能,为什么这些技能对数据科学家至关重要,以及如何获得这些技能。
数据科学家应培养批判性思维的习惯。这有助于更好地理解问题。除非问题被理解到最细粒度,否则解决方案无法做到最好。批判性思维有助于分析不同的选项,并帮助选择正确的选项。
在解决数据科学问题时,决策不总是简单的好或坏。很多选项位于好与坏之间的灰色区域。数据科学项目涉及许多决策,比如选择正确的属性集、方法论、算法、评估模型性能的指标等。这需要更多的分析和清晰的思维来选择正确的选项。
照片由 Diana Parkhouse 提供,来自 Unsplash
培养批判性思维的一个简单方法是像孩子一样保持好奇。尽可能多地提出问题,直到没有更多的问题。提问越多,我们了解得越多。理解问题越好,结果就会越好。
让我通过一个例子来演示批判性思维。我们以一家电信公司为例。我们想识别忠诚且高净值的客户。为了识别这一客户群体,我们需要从一系列问题开始,比如:
-
客户的不同档案类别是什么?
-
客户的平均年龄是多少?
-
客户的花费是多少?
-
客户互动的频率是多少?
-
客户是否按时支付账单?
-
是否有过迟付款或漏付款的情况?
-
客户的生命周期价值是多少?
这些有助于识别精英客户。这有助于组织确保这些客户获得最佳服务。
有一些技术可以帮助提高批判性思维能力。其中一种技术是第一性原理思维。这是一种帮助更好地理解问题的思维模型。以下是利用第一性原理解决数据科学问题的一个例子。
思维模型是帮助清晰思考和更好决策的绝妙工具。因此,采用思维模型有助于提高你的批判性思维能力。这里有一篇文章强调了在工作中采用思维模型的好处。
编码技能对数据科学家来说就像眼睛对艺术家一样重要。数据科学家所做的任何事情都需要编码技能。从读取来自多个来源的数据、进行数据探索性分析、建立模型到评估模型。
AutoML 解决方案会发生什么?近年来,许多 AutoML 产品不断出现。许多人甚至认为不久之后将不再需要任何编码技能。让我们举个例子,
-
有 2 家公司,A 公司和 B 公司。
-
他们都在使用最受欢迎的 AutoML 产品。
-
他们能够使用 AutoML 解决多个数据科学问题。
-
现在其中一个公司想要主导市场。
-
能够在 AutoML 解决方案的基础上进一步发展的公司将有更好的机会。
毋庸置疑,AutoML 解决方案在未来将广泛应用。许多数据科学团队今天解决的标准问题将会被自动化。这并不意味着数据科学工作将结束或数据科学家不再需要编写代码。它将使数据科学团队能够专注于新问题。
如今捕获的数据量非常大。许多组织现在只使用了可用数据的一部分。通过 AutoML,重点将转向未开发的数据。
你对数据科学感兴趣,但觉得自己没有编码技能吗?这里有一篇文章可以帮助你学习数据科学的编码技巧。
数学是数据科学家需要理解的另一个重要技能。虽然在学习数据科学时你可能对某些数学概念不了解,但如果不理解数学概念,将无法在数据科学领域取得卓越成绩。
由ThisisEngineering RAEng拍摄,来源于Unsplash
让我用一个简单的例子来演示数学概念在解决问题中的作用。我们选择客户流失分析作为例子。
-
我们将从理解不同客户群体的行为和特征开始。解决这一问题的一种方法是挑选不同的样本数据并寻找模式。这里所需的数学概念是统计学和概率论。
-
为了高效地进行数据分析,理解线性代数将非常有用。
-
假设我们想建立一个预测用户可能流失的模型。理解梯度下降的概念时,微积分知识将会有所帮助。如果你使用决策树,那么信息理论的知识将有助于理解构建树的逻辑。
-
如果你希望优化参数,那么运筹学和优化知识可能会有所帮助。
-
为了高效地实现模型评估,代数等数学概念会非常有帮助。
这还不是全部,没有数学的机器学习算法是不存在的。这并不意味着你需要成为数学家才能成为成功的数据科学家。所需的只是高中水平的数学知识。
如果你有兴趣学习数据科学中的数学,这里是最适合你的课程。
数据科学家不能孤立工作。数据科学家应与多方合作,以确保项目的成功。即使在今天,许多数据科学项目也会失败。大多数失败的主要原因是团队之间缺乏理解和合作。
为了说明合作的重要性及跨团队工作的意义。我们考虑一个场景,其中数据科学团队与客户增长团队合作。目标是了解客户流失的原因。
你决定与几个不同的团队交谈,以下是他们的反馈。
增长团队— 客户流失主要是由于竞争对手提供的激进折扣。
市场营销团队— 产品团队发布的新功能可能会导致一些问题,从而使客户流失。
产品团队— 市场营销团队只关注引入大量新客户,而没有确立客户的价值或意图。
客户支持团队 — 许多客户报告了许多与支付相关的问题。这可能是导致客户流失的原因。
如果你没有与其他团队沟通,你可能仅仅依赖于增长团队提供的输入来开始解决问题。仅凭一个团队的输入是无法解决问题的。即使增长团队是主要赞助方,但仅仅依赖他们提供的输入也是不够的。为了获得全面的视角,你需要与不同的利益相关者交流。当你限制与你合作的人或团队时,那些人的偏见将会传递到你正在构建的解决方案中。
此外,在许多情况下,数据科学团队需要与数据工程和其他技术团队密切合作。如果没有良好的协作努力,就不会成功。
-
项目投入的努力程度
-
部署在生产环境中的最终机器学习模型的准确性
-
从探索性分析中识别出的见解
如果解决方案没有很好地传达给利益相关者,那么这些解决方案都是无用的。数据科学中的问题和解决方案通常更加复杂。将其简化后再与业务沟通非常重要。讲故事的方法在沟通中非常有帮助。
让我举个例子,更简单地说明良好沟通的重要性。假设数据科学团队正在开发一个预测零售能源客户能耗的预测模型。数据科学团队需要说服业务和基础设施团队,解释拥有并运行至少 10 个不同模型以提高准确性的重要性。这意味着需要更高的计算能力和更多的时间来训练模型。
选项 A — 你讨论了将客户分组的聚类技术,因此你认为需要为每个组建立一个模型。
问题在于业务团队没有了解到实际上为每个组建立一个模型的好处。因此,如果成本较高,他们可能不会被说服。
选项 B — 你从客户的档案和特征开始。你展示客户的能耗模式。你向业务团队展示一些独特的模式,比如一些家庭在周末几乎不使用电力,可能是因为他们通常在不同的地方度过周末。同样,你展示其他独特的模式,从而解释一个模型无法适用于所有这些不同的客户,因此需要至少 10 个不同的模型,每个模型对应于 10 个不同的独特客户类别。
现在,业务部门理解拥有如此多不同模型的重要性。他们可以轻松地将增量效益与所需的基础设施成本进行比较,以评估选项。
数据科学团队的工作是清楚地向利益相关者传达想法。这不是一件容易的事情,因为大多数人对数据科学的了解有限。只有当业务从中获得价值时,数据科学项目才被视为成功。
改善组织内部协作的一个好方法是提供一个团队之间信息流畅的环境。
最后但同样重要的是领导技能。大多数组织都有一个小型的数据科学团队,他们通常会处理不同的问题集。数据科学家经常会被拉入不同的会议和临时询问。数据科学家的工作是决定何时说“是”,何时说“否”。设定正确的优先级非常重要。
此外,数据科学家需要有清晰的思维过程,并且应该具备展望结果的能力。许多时候,业务团队会施加很大压力,要求快速完成分析。数据科学家的角色是管理期望,并提供高质量的结果。
-
如果你喜欢这篇文章并对类似的文章感兴趣,在 Medium 上关注我。订阅 Medium以访问与职业、财务及更多内容相关的数千篇文章。
-
我在我的 YouTube 频道上教授和讨论各种数据科学话题。在这里订阅我的频道。
-
注册到我的电子邮件列表,获取更多数据科学技巧,并保持与我工作的联系
简介:Sharan Kumar Ravindran 是一位高级经理(数据科学),在 Medium 上是人工智能领域的顶级作者,并且是一位拥有超过 10 年经验的数据科学领袖。他撰写和讨论数据科学,旨在使其更易于理解。
原文。经许可转载。
相关:
-
我作为数据科学家的前六个月
-
停止学习数据科学以寻找目标,寻找目标以学习数据科学
-
数据科学家如何赢得 CFO 的关注(以及为什么你需要这样做)