Skip to content

Latest commit

 

History

History
97 lines (49 loc) · 7.58 KB

data-management-important-data-science.md

File metadata and controls

97 lines (49 loc) · 7.58 KB

为什么数据管理对数据科学如此重要?

原文:www.kdnuggets.com/2022/08/data-management-important-data-science.html

介绍


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT


数据是所有分析工具和机器学习算法的核心。它使领导者能够深入了解推动关键指标和客户满意度的因素。简单来说,数据在有效和智能使用时对任何组织都是一种资产。过去组织数据匮乏,缺乏利用数据力量的意识的时代已经过去。近年来,许多组织已经超越了数据限制,拥有了充足的数据来开始数据分析。

然而,数据的可用性单独并不能解决组织在数字化转型过程中面临的众多问题之一。他们需要数据管理系统,这些系统是 IT 和业务团队的结合体。

为什么数据管理对数据科学如此重要?

来源:性能图标矢量图由 rawpixel.com 创建

那么,让我们首先了解什么是数据管理。

数据管理

数据管理,顾名思义,涵盖了所有关于数据的内容——从数据的摄取、存储、组织到在组织内的维护。数据管理传统上由 IT 团队负责,但有效的数据管理只能通过 IT 团队与业务用户之间的跨部门协作来实现。业务需要向 IT 提供数据需求,因为他们对组织所希望实现的最终目标有更好的了解。

除了制定政策和最佳实践外,数据管理团队还负责一系列活动,如 这里 所述。让我们了解数据管理涵盖的范围:

  • 数据存储和更新——谁将有权编辑数据,并假定数据所有权

  • 高可用性和灾难恢复

  • 数据归档和保留政策,以了解数据库存及其用途

  • 本地和多云数据存储

  • 最后也是最重要的,数据安全和隐私必须遵守监管要求。

自助分析 - 业务价值生成的加速器

便捷的数据访问和自助分析——数据民主化的核心支柱,显著提高了生成可操作见解和业务影响的速度。

让我再详细说明一下。想象一下,一个业务分析师向业务领导者提交了一份报告,重点解决一个特定目标,比如客户细分。如果业务需要知道一些在分析初稿中未捕获的额外细节,他们需要将这一请求通过整个数据周期反馈给分析师,并等待更新结果,然后才能采取行动。

如今显而易见的是,这会导致在获得足够的信息以赋能所有领导者和高管信任数据和分析、制定业务战略时的延误。这种延误不仅导致在竞争优势方面丧失商业机会,而且报告及数据也会在满足业务需求之前变得过时。

很好,我们现在已经理解了问题。让我们转到如何填补业务需求与所呈现分析之间的差距。现在,前述场景中有一个问题很明确——当前的情况是数据主要由分析师,即技术用户处理和使用。良好管理的数据系统使得非技术业务用户(通常的数据消费者)能够轻松获取他们需求的分析,并做出及时决策。

数据科学中的数据管理

到目前为止,我们已经理解了数据管理及其重要性,这一等式同样适用于数据科学项目和团队。

数据是所有机器学习算法的核心。数据科学是最普遍的组织数据消费者。我们需要更加重视上述强调的词汇——数据科学不拥有数据,它是潜在的(且希望如此!!!)良好管理和组织的数据的消费者。

为什么说数据可能需要管理——那是因为数据往往并不以正确的形式和状态存在。呼应数据科学社区的声音和关注,数据问题是让数据科学家时刻保持警惕的主要原因。

数据管理团队及整个组织需要采纳数据优先文化,并促进数据素养,以确保业务的关键战略资产,即数据,得到妥善管理和使用。

何时宣称一个组织拥有良好管理的数据系统?

这确实不是一个容易回答的问题。不能等待数据管理团队给出绿色信号,让数据科学团队开始将数据投入到他们的机器学习流程中。务实的做法是为强大且有效管理的数据团队奠定坚实的基础,并考虑到这是一个迭代过程。是的,就像机器学习算法的迭代性质一样,数据管理也是一个生命周期的方法。它随着数据科学团队与数据管理团队的合作,不断改进和完善最佳实践和指导方针而持续演变。

话虽如此,数据管理团队是数据相关政策、实践和数据访问协议的唯一负责人,拥有强大的数据治理框架。

随着疫情时代数据生成的增加,许多组织积极寻求通过各种方式来货币化数据,包括但不限于更好地了解最终用户、通过理解内部流程提升操作效率,或提供更好的最终用户体验。因此,近年来对数据及数据治理框架的关注急剧增加。

业务、数据管理和数据科学团队的结合

实现这种对齐的一个词是有效的数据治理政策。所有三个团队需要有强有力的沟通和反馈渠道。此外,团队对迭代和改进当前数据流程的接受度是组织强大数字化转型的关键加速器。

实际上,数据文化本身反映出数据责任不仅限于任何特定的团队或个人。这是组织中每个员工的共同责任,他们需要贡献力量,并建立最高标准的数据流程。

摘要

这篇文章专注于数据相关的所有内容。文章首先介绍了数据管理团队的一般角色和职责。在后半部分,文章重点讨论了数据管理在数据科学团队中的重要性,以及跨团队对齐如何在组织中建立有效的数据流程。

Vidhi Chugh 是一位获奖的 AI/ML 创新领袖和 AI 伦理学家。她在数据科学、产品和研究交汇处工作,致力于提供业务价值和洞察。她倡导以数据为中心的科学,是数据治理的领先专家,致力于构建可信赖的 AI 解决方案。

更多相关话题