原文:
www.kdnuggets.com/2019/07/fantastic-four-data-science-project-preparation.html
经典漫画形式中,数据科学项目准备的神奇四侠最初通过在数据复仇者...集合!文章中的客串介绍。因此,如果你恰好有那篇文章,请保存好。它将来无疑会有一定的价值。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作
继续前进...
在漫威漫画中,神奇四侠是一个由四人组成的集体,成员们在一次太空飞行中接触到宇宙射线后获得了超能力。里德·理查兹即神奇先生可以以非人类的方式拉伸、重塑和扭曲他的身体,是团队的领导者。苏珊·斯托姆即隐形女是里德·理查兹的妻子,拥有变得隐形的能力。约翰尼·斯托姆即人火焰是苏·斯托姆的弟弟,掌握火焰的能力,使他可以将身体吞没在火焰中,还具备飞行的力量。班·格里姆即石头人是里德·理查兹的最好的朋友,宇宙射线将他变成了一个具有超人力量的岩石般的怪物。
正如你所见——这与大多数超级英雄一样——这确实是一场家庭盛事。
就我们的目的而言,数据科学的神奇四侠包括在处理每个项目时的这些关键方面:
-
理解问题领域和提出的问题
-
调查数据
-
根据需要清理、准备和转换数据
-
从一个明确定义的框架内解决问题
正如漫威的神奇四侠致力于帮助他人,我们的四位成员帮助数据科学家以成功为目标来处理他们的项目。
让我们更详细地看看在处理每个新的数据科学项目时应该牢记的四件神奇的事物。
1. 理解问题领域和提出的问题
数据科学项目准备的第一件神奇的事是理解问题领域。拥有足够的领域知识对成功至关重要。
来源于数据科学的无限宝石:
到底什么构成了足够的领域知识?这是相对的。你是在进行某款普通约会应用的浅层描述性分析?还是在为一个专注于某些冷门证券投资策略的组织进行深入的金融预测分析项目?执行第一个任务所需的“约会”领域知识可能微不足道,但对第二个任务有用的洞察肯定需要扎实的金融理解。
除了依赖于上下文的最低水平专业知识外,你还需要了解所提出的问题。这与理解领域不同。你可能是个真正的金融系统专家,但如果你对项目中提出的问题没有把握——这些问题直接催化了你如何整体开展项目——结果充其量会平平无奇,最糟则完全无用。
将这两个理解结合起来——对领域的了解和对问题的了解——在制定下一步行动时应提供宝贵的洞察,例如:
-
我们想知道什么?
-
从数据中可以回答哪些问题,而哪些不能?
-
我们还需要知道什么,以找出我们想要知道的内容?
2. 调查数据
调查数据基本上归结为对给定项目的数据进行熟悉。探索性数据分析(EDA)是一种获取这种熟悉的方法,通常专注于从统计和视觉上总结数据集。
来源于探索性数据分析的价值:
从高层次来看,EDA 是使用视觉和定量方法来理解和总结数据集的实践,而不对其内容做出任何假设。在进入机器学习或统计建模之前,这是一个关键步骤,因为它提供了开发适当模型所需的背景,并正确解读其结果。
随着能够轻松实现强大机器学习算法的工具的兴起,跳过 EDA 可能变得很诱人。虽然人们利用这些算法是可以理解的,但简单地将数据输入黑箱并不总是一个好主意——我们一再观察到 EDA 对所有类型的数据科学问题提供的关键价值。
3. 根据需要清理、准备和转换数据
你了解领域。你知道要问的问题。你掌握了数据中的内容,以及这些内容如何映射到你想回答的问题的能力上。
现在是时候开始实际操作了,对吧?不那么快……首先,数据需要被整理、预处理、准备或以其他方式精细化,以便在预测建模或你希望进行的其他数据科学任务中有用。
来源于 7 Steps to Mastering Data Preparation for Machine Learning with Python:
我会说,在“将数据从一种‘原始’形式映射到另一种...”的背景下,“识别数据中不完整、不正确、不准确或无关的部分,然后替换、修改或删除脏数据或粗糙数据”,以及“训练统计模型”,是我认为数据准备应涵盖的,或者说是“从数据源获取到模型构建之前的一切”。
一旦数据被转化为有用的形式,就该开始实际操作了。
4. 从一个明确的框架内进行问题解决
在明确的框架内继续进行问题解决是最佳计划。
这不仅仅是关于任何单一或特定的框架;而是要确保你心中有一个合理的程序化方法,该方法是标准化、可靠且可衡量的。广为人知的正式框架示例包括知识发现数据库(KDD)过程、跨行业数据挖掘标准过程(CRISP-DM),以及 Joe Blitzstein 和 Hanspeter Pfister 的数据科学过程。你可以在 这里 阅读更多关于这些方法的信息。
一个不那么正式的方法是 Aurélien Géron 的 机器学习项目检查表,在他的书《使用 Scikit-Learn 和 TensorFlow 的动手机器学习》中进行了概述。还有两个方法是 Yufeng Guo 的 7 步机器学习和 Francois Chollet 的机器学习通用工作流,来自他的书《用 Python 深度学习》。你可以在 这里 阅读更多关于这两种方法的信息。
我在上述帖子中还概述了机器学习的简化框架,即机器学习过程的 5 个主要领域:
-
数据收集和准备:包括从选择数据来源到数据清理和准备好进行特征选择/工程的整个过程。
-
特征选择和特征工程:这包括从数据清理后到被输入到机器学习模型中的所有数据更改。
-
选择机器学习算法和训练我们的第一个模型:获得一个“优于基线”的结果,并希望在此基础上进行改进。
-
评估我们的模型:这包括度量的选择以及实际评估;虽然看起来是比其他步骤小的步骤,但对我们的最终结果至关重要。
-
模型调整、正则化和超参数调优:在这里,我们反复从“足够好”的模型迭代到最佳效果。
那么,你应该使用哪个框架?真的有重要的区别吗?[...] 这个简化的框架是否提供了实际的好处?只要基础内容得到覆盖,并且框架重叠部分的任务得到处理,遵循 [任何一个] 模型的结果将等同于 [任何] 其他模型。你的视角或经验水平可能会对其中一个表现出偏好。
正如你可能猜到的,这实际上更多是关于探讨合理的机器学习过程 应该 是什么样的,而不是决定或对比特定框架。
所以这是我们数据科学项目准备的“神奇四侠”。我们的版本可能无法与像毁灭博士或吞星这样的超级恶棍作战,但它们在我们的分析项目成功中扮演了关键角色。希望准备的重要性已经得到强化。
文中提及的所有漫画人物和使用的图像,均为 Marvel Comics 的唯一专有财产。
相关:
-
数据复仇者……集结!
-
数据科学的无限宝石
-
机器学习难题,解析