评论
由 Springboard 提供。
在 Springboard,我们的数据学生经常问我们诸如“数据科学家做什么?”或者“数据科学的一天是什么样的?”之类的问题。
1. 谷歌网络安全证书 - 加速进入网络安全职业的快车道。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT
这些问题很棘手。答案可能因角色和公司而异。
图 1: 数据科学过程,来源: 维基百科
所以我们问了 Raj Bandyopadhyay,Springboard 的数据科学教育总监,看他是否有更好的答案。
结果发现,Raj 使用了一个非常有用的框架,这不仅是理解数据科学家做什么的一种方式,也是一种拆解任何数据科学问题的备忘单。
Raj 将其称为“数据科学过程”,他在短短的 5 天电子邮件课程中详细阐述了这个过程。以下是他的洞察总结。
步骤 1: 确定问题
在你解决问题之前,首先要做的是准确地定义问题是什么。你需要能够将数据问题转化为可操作的内容。
你经常会从有问题的人那里得到模糊的信息。你需要培养将稀缺信息转化为可操作输出的直觉——并提出其他人没有问的问题。
比如说你在为公司销售副总裁解决问题。你应该从了解他们的目标和数据问题背后的原因开始。在你开始考虑解决方案之前,你需要和他们一起明确问题。
做这件事的一个好方法是提出正确的问题。
然后,你应该弄清楚销售流程的样子以及客户是谁。你需要尽可能多的背景信息,这样你的数字才能转化为洞察。
你应该提出以下问题:
-
谁是客户?
-
他们为什么购买我们的产品?
-
我们如何预测客户是否会购买我们的产品?
-
表现良好的细分市场和表现不佳的细分市场有什么不同?
-
如果我们不主动向这些群体销售产品,我们将损失多少资金?
针对你的问题,销售副总裁可能会透露他们想了解为什么某些客户群体的购买量低于预期。他们的最终目标可能是确定是否继续投资这些客户群体,或将其降级。你需要根据这个问题调整你的分析,并挖掘出能够支持任何结论的洞察。
在这个阶段结束时,你需要拥有解决问题所需的所有信息和背景。
步骤 2:收集解决问题所需的原始数据
一旦你定义了问题,你需要数据来提供转变问题的解决方案所需的洞察。这个过程涉及思考你需要什么数据,并找到获取这些数据的方法,无论是查询内部数据库还是购买外部数据集。
你可能会发现你的公司将所有销售数据存储在 CRM 或客户关系管理软件平台中。你可以将 CRM 数据导出为 CSV 文件以进行进一步分析。
步骤 3:处理数据以进行分析
现在你拥有了所有原始数据,你需要在进行任何分析之前对数据进行处理。数据往往会比较混乱,特别是当数据维护不善时。你可能会看到会破坏分析的错误:设为 null 的值实际上是零、重复值和缺失值。你需要仔细检查数据,以确保能够获得准确的洞察。
你需要检查以下常见错误:
-
缺失值,例如没有初次联系日期的客户
-
被破坏的值,例如无效条目
-
时区差异,可能你的数据库没有考虑到用户的不同时区
-
日期范围错误,例如会有不合理的日期,比如销售开始之前的注册数据
你需要查看文件行列的汇总,并抽取一些测试值以查看你的值是否合理。如果你发现有些值不合理,你需要删除这些数据或用默认值替换它们。你需要在这里运用直觉:如果客户没有初次联系日期,是否合理说没有初次联系日期?还是需要找销售副总裁询问是否有人有关于客户缺失的初次联系日期的数据?
一旦你完成了这些问题的处理和数据清理,你就准备好进行探索性数据分析(EDA)了。
步骤 4:探索数据
当你的数据清理完成后,你应该开始动手玩弄数据!
这里的难点不在于提出测试的想法,而在于提出可能转化为洞察的想法。你的数据科学项目有一个固定的截止日期(你的销售副总裁可能在急切等待你的分析结果!),因此你需要优先考虑你的问题。
你需要查看一些有趣的模式,这些模式可以帮助解释为什么该群体的销售减少。你可能会注意到他们在社交媒体上活动不多,很少有人拥有 Twitter 或 Facebook 账户。你还可能会发现他们大多数年龄比你的普通受众要大。由此你可以开始追踪可以更深入分析的模式。
第 5 步:进行深入分析
这个步骤是你需要运用你的统计、数学和技术知识,并利用所有数据科学工具来分析数据并找出每一个见解的地方。
在这种情况下,你可能需要创建一个预测模型,将你的表现不佳的群体与平均客户进行比较。你可能会发现年龄和社交媒体活动是预测谁会购买产品的重要因素。
如果你在构建问题时提出了许多正确的问题,你可能会意识到公司一直在大力投入社交媒体营销,信息传递的目标是年轻受众。你会知道某些人口统计群体更喜欢通过电话而非社交媒体进行联系。你开始看到产品的市场推广方式显著影响了销售:也许这个问题群体并不是无药可救的!将战术从社交媒体营销转变为更多的面对面互动,可能会对一切产生积极的变化。这是你必须向销售副总裁提出的。
你现在可以将所有这些定性见解与定量分析的数据结合起来,编织一个能促使人们行动的故事。
第 6 步:沟通分析结果
重要的是销售副总裁要理解你发现的见解为什么重要。最终,你被召唤来在整个数据科学过程中创造解决方案。有效沟通将是你提案能否转化为行动或无行动的关键。
你需要在这里编写一个引人入胜的故事,将你的数据与他们的知识结合起来。你可以从解释年长人群表现不佳的原因开始。你将这些与销售副总裁给出的答案和从数据中发现的见解结合起来。然后你提出解决问题的具体方案:我们可以将一些资源从社交媒体转移到个人电话中。你将所有这些结合成一个叙述,解决销售副总裁的困境:她现在清楚如何恢复销售并实现她的目标。
她现在准备根据你的提案采取行动。
在数据科学过程中,你的日常工作会因你所在的位置而有很大变化,你肯定会接到超出标准流程的任务!你也会经常同时处理不同的项目。
如果你希望系统地思考数据科学,了解这些步骤是很重要的,更何况如果你打算开始从事数据科学职业。
如果是这样的话,你可能会想查看我们免费的 40 页《数据科学入门指南》!
即使你并不打算进入这个领域,通过回到基础并彻底理解它们,你在数据科学领域的职业生涯也将得到改善。我们很欢迎你对数据科学过程的任何反馈。
相关内容:
-
数据科学与残疾
-
数据科学如何预测和减少不良出生结果
-
预测分析——一碗汤的故事