Skip to content

Latest commit

 

History

History
105 lines (53 loc) · 8.41 KB

10-common-data-quality-issues-fix.md

File metadata and controls

105 lines (53 loc) · 8.41 KB

10 种最常见的数据质量问题及其解决方法

原文:www.kdnuggets.com/2022/11/10-common-data-quality-issues-fix.html

10 种最常见的数据质量问题及其解决方法

图片来源:作者

介绍


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


数据已经成为全球所有企业的核心。组织高度依赖数据资产进行决策,但不幸的是,“100%干净准确的数据”并不存在。数据受到许多因素的影响,这些因素恶化了数据的质量。专家表示,对抗数据问题的最佳方法是识别其根本原因,并引入新流程以提高数据质量。本文涵盖了企业面临的常见数据质量问题以及如何最佳解决这些问题。在我们深入探讨之前,让我们首先了解一下这些问题的知识为何重要,以及它们对业务活动的影响。

为什么数据质量很重要?

什么是数据质量? 数据质量指的是数据当前状态的衡量,包括完整性、准确性、可靠性、相关性和及时性等特征。数据质量问题表示存在损害上述特征的缺陷。数据只有在高质量的情况下才有价值。数据质量差的一些后果包括:

  • 决策失误

  • 生产力下降

  • 不准确的分析导致声誉受损

  • 客户不满意和收入损失

  • 错误的商业计划

常见的数据质量问题

1) 人为错误

即使有所有的自动化,数据仍然在各种网络界面上输入。因此,很可能出现打字错误,导致数据不准确。这种数据输入既可能由客户完成,也可能由员工完成。客户可能会将正确的数据写入错误的数据字段。类似地,员工在处理或迁移数据时也可能犯错。专家建议自动化过程,以减少人工数据捕获的参与。一些可能有助于这方面的步骤包括:

  • 使用数据质量工具进行实时表单验证

  • 对员工进行适当的培训

  • 使用明确的列表锁定客户可以输入的内容

2) 数据重复

目前,数据来自多个渠道,在合并时容易产生重复数据。这会导致相同记录的多个变体,从而提供扭曲的分析结果和不正确的见解。预算也会在这些重复记录上浪费。你可以使用数据重复工具来查找类似的记录并将其标记为重复。另一个可能有帮助的技术是标准化数据字段,并对数据输入进行严格的验证检查。

3) 数据不一致

多个数据源中的相同信息不匹配可能导致数据不一致。数据的一致性对于正确利用数据至关重要。不一致可能源于不同的单位和语言。例如,距离可能以公里为单位表示,而实际上需要的是米。这会干扰所有业务操作,需要在源头解决,以确保数据管道提供可信的数据。因此,在迁移之前需要进行所有必要的转换,并引入有效性约束。对数据质量的持续监控也可以帮助你识别这些不一致性。

4) 数据不准确和丢失

不准确的数据会严重影响决策,使企业难以实现目标。这很难识别,因为格式、单位和语言都是正确的,但可能会有拼写错误或丢失的数据,使其变得不准确。数据完整性丧失和数据漂移(随时间发生的意外变化)也表明数据不准确。我们需要通过使用各种数据管理和数据质量工具,在数据生命周期的早期阶段追踪这些问题。这些工具应该足够智能,能够通过自动排除不完整条目并生成警报来发现这些问题。

5) 使用错误的公式

在实际操作中,数据集中的许多字段可能是通过其他字段计算得出的,以提取有意义的信息。这些字段被称为计算字段。例如,年龄是从出生日期推导出来的。每当添加新记录时,这些公式会自动计算,使用错误的公式会使该字段的内容不准确。违反这些规则和逻辑会导致数据无效。测试系统的各个阶段可以帮助你解决这个问题。

6) 数据过载

大量的数据涌入系统会掩盖关键见解,并添加不相关的数据。捕获、组织和排序这些数据的额外开销不仅是一个昂贵的过程,而且效果也不佳。这种数据负担使得分析趋势和模式、识别异常值以及进行变更变得困难,因为这需要大量时间。来自不同来源的数据需要通过过滤掉不相关数据来清理,并进行适当的组织。这种技术确保了数据的相关性和完整性。

7) 数据停机

当数据处于部分、错误或不准确状态时,这被称为数据停机时间。这对依赖行为数据来运行操作的数据驱动型组织来说,成本极高。导致数据停机时间的一些常见因素包括架构的意外变化、迁移问题、网络或服务器故障、数据不兼容等。但重要的是要持续测量停机时间,并通过自动化解决方案将其最小化。通过引入数据可观察性从源头到消费点可以消除停机时间。数据可观察性是组织理解数据健康状况并通过采用最佳实践进行改善的能力。此外,公司应引入服务水平协议(SLA),以追究数据团队的责任。

8) 隐藏数据

经验快速增长的公司也会快速积累数据。他们只使用收集数据的一部分,将剩余的数据转储到不同的数据仓库。这被称为隐藏数据,因为尽管它有助于优化流程并提供有价值的见解,但却未被使用。大多数公司没有一个连贯且集中化的数据收集方法,这导致了隐藏数据的产生。集中管理你的数据是克服这个问题的最佳方法。

9) 过时数据

数据可能会非常快速地过时,导致数据衰退。数据描述的对象发生变化,但这些变化在计算机中未被察觉。例如,如果一个人已经更改了他的字段,但数据库仍显示过时的数据。这种数据与现实不匹配的问题会恶化数据质量。设置提醒以审查和更新你的数据,以确保它不会过时和陈旧。

10) 数据素养不足

尽管做了所有努力,如果组织团队没有数据素养,他们将做出不正确的数据质量假设。理解数据属性并不简单,因为同一字段在不同记录中可能有不同的含义。能够可视化更新的影响以及每个属性的含义是经验的积累。应组织数据素养培训课程,以向所有参与数据工作的团队解释数据。

结论

本文涵盖了您可以从根本上解决的最常见的数据质量问题,以防止未来的损失。请记住,数据本身不会有价值,除非你让它变得有价值。希望您喜欢阅读这篇文章。请随时在评论区分享您的想法或反馈。

Kanwal Mehreen 是一名有志的软件开发者,对数据科学和人工智能在医学中的应用充满兴趣。Kanwal 被选为 2022 年亚太地区的 Google Generation Scholar。Kanwal 喜欢通过撰写关于热门话题的文章来分享技术知识,并热衷于提升女性在科技行业中的代表性。

更多相关内容