Skip to content

Latest commit

 

History

History
111 lines (56 loc) · 9.14 KB

importance-experiment-design-data-science.md

File metadata and controls

111 lines (56 loc) · 9.14 KB

数据科学中实验设计的重要性

原文:www.kdnuggets.com/2022/08/importance-experiment-design-data-science.html

引言


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT


我们每个人或多或少都是实验的参与者。要么是某个广告定位机构正在进行实验,以检查展示给用户的广告类型以获取销售,即转化。要么是一些流行机器学习课程提供商的网站上的功能变更,以评估用户对哪些变化最敏感,以及这些变化是否推动了实验组织者希望观察的商业 KPI。这种随机化实验被称为 AB 测试,广泛归类于假设测试的范畴。

数据科学中实验设计的重要性

来源:图像由 freepik 创建

如果您到目前为止跟上了,那么欢迎来到实验的世界。让我们首先了解什么是实验。

一般来说,实验被定义为

“一种用于支持或反驳假设,或确定某种以前未尝试过的事物的有效性可能性的程序。”

在一般定义的基础上,实验的科学意义涉及假设测试,以检查所提出的解决方案是否适用于给定的问题陈述。需要注意的一点是,实验是以受控的方式进行的。

在这篇文章中,我们将了解实验设计在数据科学项目中的重要性。因此,让我们再了解一个实验设计的定义

“实验设计是一个用于组织、实施和解释实验结果的概念,它通过进行少量试验确保获得尽可能多的有用信息。”

数据科学家可以用多种方式设计和实施机器学习项目中的实验。但首先尝试哪些,团队应如何计划和同时进行多个实验,并最终将其分析转化为有意义的见解和成果?这需要熟练的数据科学家才能不被众多可能的优秀想法所压倒。他们会直接排除一些想法和实验,因为他们知道哪些算法和方法适用于哪些数据集,以及所选算法的不足之处。这种技能不是一朝一夕就能培养出来的,需要多年的经验来对实验进行排序,以获得更高的时间和资源回报。

一个例子

数据科学家往往会跳跃性地假设哪种机器学习框架最适合当前问题。理解业务背景是机器学习项目的核心。如何将业务问题映射到统计机器学习问题上,对于业务成果和影响的成功至关重要。让我们通过一个例子来了解典型的机器学习实验:

  • 根据这些输入,数据科学家需要缩小范围并决定使用哪个算法。例如,如果这是一个分类问题,那么是使用逻辑回归还是随机森林分类器,构成了实验的一部分。

设计实验时要考虑的因素:

想法是免费的,不花钱。但是,哪些想法可以继续推进和设计实验需要考虑多种因素。

  • 假设 - 对于这个实验如何解决给定问题的直观理解。

  • 数据可用性 - 你是否有可以开始的数据?

  • 所需数据 - 拥有大量数据并不保证项目的成功,需要仔细评估解决业务问题所需的所有属性。与业务领导进行初步的探索性和可行性研讨会有助于将这一要求纳入视野。

  • 努力程度(LOE) - 进行这个实验的努力估算是多少?

  • 自己动手(DIY)或开源 - 是否存在可以快速利用的现有工具、包、库或代码库,以验证假设?

  • 是否独立 - 这个实验是否依赖于某些先前的结果,还是可以独立进行?在多个团队的依赖或基础设施缺乏的情况下,执行实验的速度会受到阻碍。

  • 成功标准 - 如何判断实验是否得到了预期的结果?

  • 集成测试 - 你的成功实验是否在某些约束条件下有效,并且一旦环境发生变化(这是不可避免的),是否不可靠?它在统计上是否显著?你对结果的可重复性有多大信心?最终结果是否与机器学习生态系统的其他部分良好集成?

实验设计被简要说明为确定一组可能影响过程性能的因素,选择每个因素的合理水平,定义因素水平的组合集,并根据定义的实验设计执行实验。

专业提示 1

一位经验丰富的数据科学家能够利用从以往项目中学到的知识库,审慎地选择已选实验以产生业务价值,而不是朝着所有方向发展。话虽如此,与团队进行健康的技术讨论,征求他们的意见,决定每个实验的利弊,在什么假设下该实验会成功或失败,并将其记录在追踪器中,总是一种好做法。这样的讨论将帮助你对实验进行排序,按其潜在影响和结果进行排序。这个前提源于机器学习中的集成方法,即单个数据科学家可能无法考虑所有的边角情况,除非得到第二双眼睛的帮助(尽可能多的合格眼睛 :))

专业提示 2

很多时候,实验一开始就被认为是更多的研究导向,数据科学家知道即使这个实验给出了最佳的性能,也不能投入生产。那么你可能会想,我们为什么要尝试这样的实验呢?嗯,建立最佳案例即北极星,即使它只是理论上的,也很重要。这样可以估算当前生产就绪的模型版本距离最佳已知性能还有多远,以及为了达到最佳性能需要进行哪些类型的权衡。

专业提示 3

进行实验是一回事,准确分析实验结果则是另一回事。你可能需要在不同的算法或不同的样本集上进行多次循环来决定最终结果。但如何分析输出才是关键。最终选择的实验不仅仅依赖于单一的评估指标。它还取决于解决方案在基础设施需求方面的可扩展性以及结果的可解释性。

实验管理

到目前为止,我们讨论了实验设计的样子。如果你对如何管理多个实验和工件感兴趣,可以参考这篇优秀文章。它涵盖了 AI/ML 项目中的变量组合,包括但不限于以下内容:

  • 预处理、模型训练和后处理模块

  • 数据和模型版本管理:用于训练先前模型或生产模型的数据是什么?

  • 采样方法:训练数据是如何创建和采样的——是否存在不平衡?是如何处理的?

  • 模型评估:模型是如何验证的,使用了哪些数据?它是否代表了将用于生产系统的数据模型?

  • 算法:你怎么知道哪个算法用于哪个模型版本?我们还需要理解,即使在新模型版本中算法可能相同,但架构也可能已发生变化。

摘要

在这篇文章中,我们讨论了实验的重要性,特别是在数据科学项目中的重要性。此外,我们谈到了在设计和进行机器学习实验之前需要考虑的各种因素。文章最后强调了实验设计中需要管理的多个实体和工件。

Vidhi Chugh 是一位屡获殊荣的 AI/ML 创新领导者和 AI 伦理学家。她在数据科学、产品和研究交汇的领域工作,以提供商业价值和洞察力。她倡导以数据为中心的科学,并且是数据治理领域的领先专家,致力于构建值得信赖的 AI 解决方案。

相关主题