原文:
www.kdnuggets.com/2020/09/understanding-bias-variance-trade-off-3-minutes.html
平衡它们就像魔法一样
1. Google 网络安全证书 - 加快你的网络安全职业发展。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 在 IT 领域支持你的组织
偏差和方差是训练机器学习模型时需要调整的核心参数。
当我们讨论预测模型时,预测错误可以分解为两个主要子组件:偏差导致的错误和方差导致的错误。
偏差-方差权衡是偏差引入的错误与方差产生的错误之间的张力。为了理解如何充分利用这一权衡,避免模型欠拟合或过拟合,我们首先学习偏差和方差。
由于偏差导致的错误是模型的预测值与真实值之间的距离。在这种错误中,模型对训练数据关注较少,过于简单化模型,不学习模式。模型通过未考虑所有特征而学习错误的关系。
对于给定数据点或值的模型预测的变异性是告诉我们数据的分布情况。在这种错误中,模型对训练数据过度关注,甚至到记住它而不是从中学习的程度。具有高方差错误的模型无法对未见过的数据进行有效的泛化。
如果偏差与方差是阅读行为,它可以像略读文本与逐字记忆文本之间的区别。
我们希望我们的机器模型从其接触的数据中学习,而不是*“对它有一个大致的了解”*或“逐字记忆”。
偏差-方差权衡是关于平衡和找到一个最佳点,在偏差导致的错误和方差导致的错误之间。
这是一个欠拟合与过拟合的困境
图由 Jake VanderPlas 绘制
如果模型用灰色线表示,我们可以看到,高偏差模型是一个过于简单化数据的模型,而高方差模型是一个过于复杂以至于过拟合数据的模型。
-
偏差是模型为了使目标函数更容易逼近而做出的简化假设。
-
方差是指在不同的训练数据下,目标函数估计值的变化量。
-
偏差-方差权衡是我们的机器模型在偏差和方差引入的误差之间表现最佳的甜蜜点。
在这篇文章中,我们讨论了 偏差和方差的概念含义。接下来,我们将探索该概念在*代码中的应用。
布伦达·哈利 (LinkedIn) 是一位驻华盛顿特区的市场数据专家。她热衷于推动女性在科技和数据领域的参与。
原文。转载已获许可。