原文:
www.kdnuggets.com/2018/07/data-science-business-expected-value-framework.html
实施数据科学在商业中的最困难且最关键的部分之一是量化投资回报率或 ROI。在这篇文章中,我们强调了学习预期价值框架的三个理由,该框架将机器学习分类模型与 ROI 连接起来。此外,我们会指向我们最近发布的新视频,预期价值框架:使用 H2O 建模员工流失,这是我们旗舰课程的一部分:数据科学与商业 (DS4B 201)。该视频概述了使用 H2O 减少员工流失并计算 ROI 的步骤,将关键的 H2O 功能与过程联系起来。最后,我们将讨论一些与将预期价值应用于商业中的机器学习分类问题相关的预期价值框架常见问题。
1. Google 网络安全证书 - 快速进入网络安全职业道路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT 需求
如果你想将数据科学与机器学习分类器的 ROI 联系起来,这里有你需要了解预期价值的 3 个理由。我们将使用与员工流失(也称为员工离职或员工流失)相关的DS4B 201 课程中的示例。
原因 #1: 分类机器学习算法经常最大化错误的指标
F1 是平衡精度和召回率的阈值(换句话说,它在减少假阳性和假阴性方面寻求一个相对平衡的阈值)。问题在于,在商业中,假阳性(类型 1 错误)和假阴性(类型 2 错误)相关的成本很少相等。实际上,在许多情况下,假阴性的成本要高得多(可能是 3 倍或更多!)。
示例: 员工流失的类型 1 和类型 2 错误成本
我们开发了一个预测算法,该算法发现员工在加班过多时离职的可能性是正常情况的 5 倍。
从 H2O + LIME 结果计算预期流失成本我们开发了一个建议,使用极其强大的 H2O 分类模型以及 LIME 来减少加班,并解释结果。像许多算法一样,我们默认通过处理类型 1 和类型 2 错误来优化。这会以大致相同的比例错误分类离职员工(类型 2 错误)和留任员工(类型 1 错误)。估计减少加班对员工的成本是如果员工离职,生产力损失的 30%。然而,错误减少留任员工的加班成本是类型 1 错误的 30%或 3 倍,还把它们当作相同处理! 商业问题的最佳阈值几乎总是低于 F1 阈值。这引出了你需要了解期望值框架的第二个理由。
理由 #2: 解决方案是最大化期望值
当我们需要使用商业成本来计算期望值时,我们可以通过迭代计算来找到最大化商业问题期望利润或节省的最佳阈值。通过在不同的阈值下迭代计算节省金额,我们可以查看哪个阈值优化了目标方法。
在详细的示例中,我们可以看到,在阈值优化结果中,最大节省($546K)发生在阈值 0.149 处,这比在最大 F1 阈值下的节省($470K)节省了 16%。值得一提的是,最大化 F1 的阈值是 0.280,对于包含总人口 15%的测试集来说,由于不够优化,导致了$76K 的额外成本($546K - $470K)。将这种低效扩展到整个数据集(训练数据 + 测试数据),这是每年错失的$500K 机会!
然而,模型基于多个假设,包括平均加班百分比、每位员工的预期净利润等等。
理由 #3: 期望值可以测试假设中的变异性
我们可以使用灵敏度分析以及期望值。我们测试模型假设对员工离职期望利润(或节省)的影响。
在下面的人力资源示例中,我们测试了平均加班百分比和每位员工的净收入的一系列值,因为我们对未来的估计可能存在偏差。在下面显示的敏感性分析结果中,我们可以在盈利能力热图中看到,只要平均加班百分比小于或等于 25%,实施有针对性的加班政策就能为组织节省资金。
敏感性分析结果(盈利能力热图)
哇!我们不仅可以测试最大化商业案例的最佳阈值,还可以使用期望值测试每年和每人变化的输入范围。如果你有兴趣了解如何将期望值框架应用于你的业务,我们会展示如何操作,提供代码,并展示在我们在**数据科学商业课程(DS4B 201 课程)****中的其他行业应用实例。
简介: Matt Dancho 是一位数据驱动的决策者。热衷于学习新工具、开发软件和与人合作以获取见解并做出更好的决策。喜欢与团队和个人合作以推动运营卓越。驻扎在美国宾夕法尼亚州州立大学。
相关: