Skip to content

Latest commit

 

History

History
125 lines (63 loc) · 8.57 KB

approaches-data-imputation.md

File metadata and controls

125 lines (63 loc) · 8.57 KB

数据插补方法

原文:www.kdnuggets.com/2023/01/approaches-data-imputation.html

数据插补方法

图片由 Ron Lach 提供

现实世界的数据集很少是完美的,并且通常存在缺失值或不完整的信息。这些缺陷可能由于人为因素(填写错误或未填写的调查问卷)或技术因素(传感器故障)。无论情况如何,您通常都会遇到缺失值或信息。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速入门网络安全职业。

2. 谷歌数据分析专业证书 - 提升您的数据分析水平

3. 谷歌 IT 支持专业证书 - 支持您的组织在 IT 领域


当然,这带来了一个问题。没有缺失值,整个数据集可能会被认为是不可用的。但由于获取高质量数据需要大量的时间、精力和(在许多情况下)资金,丢弃不正确的数据并重新开始可能不是可行的选择。相反,我们必须找到一种方法来解决或替代这些缺失值。这就是数据插补的作用。

本指南将讨论什么是数据插补以及它支持哪些类型的方法。

处理缺失数据

虽然我们无法替代缺失或损坏的数据,但我们可以使用一些方法使数据集仍然可用。数据插补是实现这一目标的最可靠技术之一。然而,我们必须首先确定缺失的数据类型及其原因。

在统计学和数据科学中,有三种主要类型的缺失数据:

  • 随机缺失(MAR),其中缺失的数据与一个变量相关,并且最终可以被观察或追踪。在许多情况下,这可以提供有关人口统计或数据对象的更多信息。例如,某些年龄段的人可能会在调查问卷中跳过某些问题,或在特定时间从他们的设备中移除追踪系统。

  • 完全随机缺失(MCAR),其中缺失的数据无法观察或追踪到一个变量。几乎不可能辨别数据缺失的原因。

  • 非随机缺失(NMAR),其中缺失的数据与一个感兴趣的变量相关。在大多数情况下,这种缺失数据可以忽略。NMAR 可能发生在调查者跳过不适用于他们的问题时。

处理缺失数据

当前,你有三种主要选项来处理缺失数据值:

  • 删除

  • 插补

  • 忽略

你可以使用所谓的逐列表删除,而不是丢弃整个数据集。这涉及删除有缺失信息或值的记录。逐列表删除的主要优势在于它支持所有三类缺失数据。

然而,这可能导致额外的数据丢失。建议仅在缺失(观察到的)值数量大于现有(观察到的)值数量时使用 逐列表删除,主要是因为没有足够的数据来推断或替换它们。

如果观察到的缺失数据不重要(可忽略)且仅有少量值缺失,你可以忽略它们,使用现有数据进行工作。然而,这并不总是可能的。数据插补提供了第三种可能更可行的解决方案。

什么是数据插补

数据插补涉及替换缺失值,以便数据集仍然可用。数据插补方法有两种类别:

  • 单一

  • 多重

均值插补(MI)是最著名的单一数据插补形式之一。

均值插补(MI)

MI 是一种简单的插补方法。这涉及计算观察值的均值,并利用结果推断缺失值。不幸的是,这种方法已被证明效率低下。即使数据完全随机缺失,它也可能导致许多偏差估计。此外,估计的“准确性”取决于缺失值的数量。

例如,如果缺失的观察值数量很大, 使用均值插补 可能导致值低估。因此,它更适合仅有少量缺失值的数据集和变量。

手动替换

在这种情况下,操作员可以利用数据集值的先验知识来替换缺失值。这是一种依赖于操作员记忆或知识的单一插补方法,有时称为理想数的先验知识。准确性取决于操作员回忆值的能力,因此这种方法可能更适用于仅有少量缺失值的数据集。

K 最近邻(K-NN)

K 最近邻是一种在机器学习中著名的技术,用于解决回归和分类问题。它利用缺失数据值邻居的缺失数据值的均值来计算和插补。 K-NN 方法 比简单均值插补要有效得多,适用于 MCAR 和 MAR 值。

替代

替代涉及寻找一个新的个体或对象进行调查或测试。这应该是一个未在原始样本中选择的对象。

回归插补

回归分析尝试确定一个因变量(通常标记为 Y)与一组自变量(通常标记为 X)之间的关系强度。线性回归是最著名的回归形式。它使用最佳拟合线来预测或确定缺失的值。因此,它是通过回归模型可视化数据的最佳方法。

当线性回归是一种确定性回归形式时,它建立了缺失值与现有值之间的精确关系,缺失值会用回归模型的 100%预测值来替代。然而,这种方法有其局限性。确定性线性回归常常导致对值之间关系的亲密程度的高估。

随机线性回归通过引入(随机)误差项来补偿确定性回归的“过度精确性”,因为两个情况或变量很少完全关联。这使得使用回归填补缺失值更加合适。

热备样本

这种方法涉及从具有与缺失值个体相似的其他值的个体中选择一个随机值。你需要寻找个体或对象,然后用他们的值填补缺失的数据。

热备样本法限制了可获得值的范围。例如,如果你的样本限制在 20 到 25 岁的年龄组之间,你的结果将始终在这些数字之间,从而提高了替代值的潜在准确性。这种插补方法的个体是随机选择的。

冷备样本

这种方法涉及寻找具有相似或相同所有其他变量/参数值的个体/对象。例如,该个体可能与缺失值的个体在身高、文化背景和年龄上相同。它与热备样本法不同,因为这些个体是系统性选择和重用的。

结论

尽管处理缺失数据的方法和技术有很多,但预防总是胜于治疗。研究人员必须实施严格的实验规划和研究计划。研究必须有明确的任务声明或目标。

研究人员常常使研究过于复杂或未能针对障碍进行规划,这导致数据缺失或不足。最好简化研究设计,同时准确专注于数据收集。

仅收集满足研究目标所需的数据,其他数据一律不收集。你还应该确保在研究或实验中所有使用的仪器和传感器始终保持正常运行。随着研究的进行,考虑定期备份你的数据/响应。

缺失数据是常见现象。即使你实施了最佳实践,你仍可能面临数据不完整的问题。幸运的是,事后还是有办法解决这个问题。

Nahla Davies 是一位软件开发人员和技术作家。在全职从事技术写作之前,她曾管理过多项有趣的工作,包括担任 Inc. 5,000 实验品牌组织的首席程序员,该组织的客户包括三星、时代华纳、Netflix 和索尼。

了解更多相关内容