Skip to content

Latest commit

 

History

History
101 lines (51 loc) · 7.47 KB

first-steps-data-science-project.md

File metadata and controls

101 lines (51 loc) · 7.47 KB

数据科学项目的第一步

原文:www.kdnuggets.com/2020/07/first-steps-data-science-project.html

评论

Favio Vazquez,Closter 首席执行官


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业的快车道。

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 支持你的组织的 IT


数据科学应该以一种能够使决策遵循系统化过程的方式来实施。为了实现这一点,我们需要一个计划和方法论来完成数据科学项目。可悲的是,大多数数据科学项目失败的原因是参与的人没有清楚地理解他们需要做什么,或者对公司最重要的事项没有明确认识。你的解决方案需要与公司或其部门的目标和宗旨相一致。

在这篇文章中,我将讨论数据科学项目的第一步以及如何在工作中实现良好的性能和结果。这是对整个数据科学项目的初步介绍,我将在后续的文章中进一步讨论。

但首先,我会给你讲一个小故事,讲述数据科学在公司中的发展(在一个常见的场景中)。事情是这样发生的:

  1. 你手中有大量的数据,这些数据是你几个月或几年来积累的,有人说:“我们有很多数据,我们得对它做点什么。”

  2. 公司决定创建新的领域,以开始思考如何利用数据做出决策。新的员工被聘请来从事这些新创建的领域。

  3. 商业问题正在转变为数据科学问题,你希望利用数据来解决这些问题。公司聘请了“数据科学家”和数据收集与分析人员。必须有人来优先排序这些问题,然后将其传递给团队。

  4. 随着数据科学实践的开展,你开始使用数据来解决问题,运用机器学习、统计分析等技术。数据科学部门有很多使用案例,每个人都想参与这一革命。

正如你所见,这个过程源于需求,但情况并非总是如此。有些公司从数据科学的思维方式开始,因此这个过程可能会有所不同。

首先,我们需要定义数据科学项目的第一步:

业务理解

任何数据科学项目的一个关键步骤是获取公司的背景和项目背景。这里的背景是指公司如何运行项目、公司的建立情况、竞争对手、部门数量、各部门的不同目标和目的,以及如何衡量成功或失败。

对于一个项目来说,过程是相同的。你需要了解上述所有内容以及期望,了解每个人的角色和职责,项目如何融入运行它的部门,参与的人数以及对你的期望。

数据收集和摄取

数据收集是系统地收集和测量变量信息的过程,这些信息可以回答研究问题、检验假设和评估结果。

在数据领域有多种工作方式和角色,但它们的共同点在于都使用数据。当解决业务问题时,你希望拥有最佳的数据。

数据收集需要一个过程。它不仅仅是从无处获得数据,我们必须一致地进行数据收集,这不是随机的,我们需要规划它,而且还需要工程师、数据架构师、DataOps 以及其他人,而不仅仅是数据科学家。

当你处理一个新的数据集时,最困难的事情之一就是发现最重要的特征来预测你的目标,以及找到可以改善你对数据和模型理解的新信息来源。

大量的数据在等待着你,它们准备好被使用,这就是所谓的开放数据。开放数据的理念是,它是免费的,容易获取,并且可以以方便的格式下载,例如 CSV 或逗号分隔值,这是一种常见的电子表格数据格式。

探索性数据分析和数据准备

在收集数据后,你需要理解和分析数据。数据分析和准备过程是你可以检查前面的步骤是否完成正确,或者你可能需要重新考虑业务案例,或者你可能需要更多的数据或不同的数据。

在这里,你将应用大量的统计分析和代数概念,以充分利用你的数据。分析数据有很多免费的优秀工具,比如 SQL、Python 或 R,或者你也可以使用 Excel,或者如果条件允许,可以使用 Tableau、PowerBI 和 Explorium 等平台。

你需要记住,数据科学不仅仅是关于软件、编程或从不同数据库读取数据。数据科学是关于解决问题的。一个类比是,物理学不是关于微积分、移动物体或代数,而是关于研究自然、理解自然和建模自然。

此外,数据科学是一个迭代过程。不断地迭代,反复思考业务流程和需求,大量实验,倾听数据的反馈,理解并鼓励业务团队理解数据的意见必须始终包含在产品讨论中,找到解决问题的关键路径,然后围绕完成它并进一步推进来组织团队,让模型解决问题,当然,使用我们的专业知识来帮助它们,但不偏袒它们。

数据科学从数据到价值,但我们需要一个良好的起点。如果你对业务背景了解不深,即使你是机器学习专家,也无法解决问题。如果你没有按照系统化的流程收集数据,以获得最佳的信息来源并利用已有的数据,实现目标是不可能的,最后,如果你没有花时间分析和准备数据,就无法验证最后的步骤并提出识别问题的驱动因素的假设。

有很多地方可以找到这类数据,但有时收集起来可能会很复杂。幸运的是,我们有像 Explorium 这样的工具,使一切变得简单 - 了解更多关于 Explorium 的信息

相关:

更多相关话题