Skip to content

Latest commit

 

History

History
57 lines (29 loc) · 3.96 KB

sparkbeyond-avoid-data-science-projects-fail.md

File metadata and controls

57 lines (29 loc) · 3.96 KB

85%的数据科学项目失败——以下是如何避免

原文:www.kdnuggets.com/2021/09/sparkbeyond-avoid-data-science-projects-fail.html

赞助文章。

Sparkbeyond 避免数据科学项目失败

由 Sparkbeyond 提供。


我们的前 3 个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升您的数据分析技能

3. Google IT 支持专业证书 - 支持您的组织的信息技术


85%的数据科学项目失败。那么你如何避免成为这一统计数据的一部分?这里有一些数据科学家可以避免的常见陷阱。

1. 超越预测

毫无疑问,预测建模是数据科学的一大优势——特别是在我们知道结果超出我们控制范围的情况下,预测成为唯一的选择。但是,为什么要将数据科学仅限于预测呢?

例如,我们是否应该简单地接受客户流失的事实,并对那些最有风险的客户提供保留优惠?还是我们应该了解人们为何可能流失,并让他们一开始就成为更满意的客户?

我们需要超越仅仅构建预测模型,深入挖掘潜在驱动因素。显然,这比构建模型要复杂得多,因为发现开放性问题的根本原因远比构建模型要复杂。如果你想塑造未来而不是被未来塑造,你需要发现驱动你问题的因素

2. 你知道你想知道什么吗?

将商业问题转化为数据科学用例时,第一个问题通常是:“我的目标变量是什么?”这个问题并不像你想的那么简单。

常见的分析用例通常有多个角度。例如,以保险索赔为例。我们希望了解哪些索赔总体上风险较低,可以加速处理。此外,我们还想知道哪些需要通过其他保险公司进行分诊,或者哪些可能没有保障。每个目标通常有不同的驱动因素,使用传统方法,探索五个用例将需要付出五倍的努力。为了创造可持续的业务影响,这还不够。

3. 今天有效的东西明天可能无关紧要

疫情的波动暴露了一个众所周知的问题,即仅仅对最新数据进行模型重新校准。重新校准只能使你的模型正确解读呈现给它们的信息——这些信息是由数据科学家提供的特征中编码的。但那些在过去被丢弃或忽视的信息呢?因为在过去,它们并不重要。

尽管上述问题看起来各不相同,但有一种方法可以提供解决方案:利用人工智能大规模生成假设

进一步阅读