原文:
www.kdnuggets.com/2021/09/sparkbeyond-avoid-data-science-projects-fail.html
赞助文章。
由 Sparkbeyond 提供。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升您的数据分析技能
3. Google IT 支持专业证书 - 支持您的组织的信息技术
85%的数据科学项目失败。那么你如何避免成为这一统计数据的一部分?这里有一些数据科学家可以避免的常见陷阱。
1. 超越预测
毫无疑问,预测建模是数据科学的一大优势——特别是在我们知道结果超出我们控制范围的情况下,预测成为唯一的选择。但是,为什么要将数据科学仅限于预测呢?
例如,我们是否应该简单地接受客户流失的事实,并对那些最有风险的客户提供保留优惠?还是我们应该了解人们为何可能流失,并让他们一开始就成为更满意的客户?
我们需要超越仅仅构建预测模型,深入挖掘潜在驱动因素。显然,这比构建模型要复杂得多,因为发现开放性问题的根本原因远比构建模型要复杂。如果你想塑造未来而不是被未来塑造,你需要发现驱动你问题的因素。
2. 你知道你想知道什么吗?
将商业问题转化为数据科学用例时,第一个问题通常是:“我的目标变量是什么?”这个问题并不像你想的那么简单。
常见的分析用例通常有多个角度。例如,以保险索赔为例。我们希望了解哪些索赔总体上风险较低,可以加速处理。此外,我们还想知道哪些需要通过其他保险公司进行分诊,或者哪些可能没有保障。每个目标通常有不同的驱动因素,使用传统方法,探索五个用例将需要付出五倍的努力。为了创造可持续的业务影响,这还不够。
3. 今天有效的东西明天可能无关紧要
疫情的波动暴露了一个众所周知的问题,即仅仅对最新数据进行模型重新校准。重新校准只能使你的模型正确解读呈现给它们的信息——这些信息是由数据科学家提供的特征中编码的。但那些在过去被丢弃或忽视的信息呢?因为在过去,它们并不重要。
尽管上述问题看起来各不相同,但有一种方法可以提供解决方案:利用人工智能大规模生成假设。