原文:
www.kdnuggets.com/2018/01/regularization-machine-learning.html
由 Prashant Gupta 提供
训练机器学习模型的一个主要方面是避免过拟合。如果模型过拟合,其准确性会很低。这发生在你的模型过于努力地捕捉训练数据集中的噪声时。噪声指的是那些不真正代表数据真实属性的数据点,而是随机的偶然性。学习这些数据点会使模型更加灵活,但也有过拟合的风险。
1. Google 网络安全证书 - 快速进入网络安全职业道路
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织进行 IT
平衡偏差和方差的概念,有助于理解过拟合现象。
避免过拟合的方法之一是使用交叉验证,这有助于估计测试集上的误差,并决定哪些参数最适合你的模型。
本文将重点介绍一种技术,帮助避免过拟合并提高模型的可解释性。
正则化
这是一种回归形式,约束/正则化或缩小系数估计值到接近零。换句话说,这种技术旨在避免学习更复杂或灵活的模型,以防止过拟合的风险。
线性回归的简单关系看起来是这样的。这里 Y 代表学到的关系,β 代表不同变量或预测器(X)的系数估计值。
Y ≈ β0 + β1X1 + β2X2 + … + βpXp
拟合过程涉及一个损失函数,称为残差平方和或 RSS。系数的选择是为了最小化这个损失函数。
现在,这将根据你的训练数据调整系数。如果训练数据中存在噪声,那么估计的系数对未来数据的泛化能力就会差。这就是正则化发挥作用的地方,它将这些学习到的估计值缩小或正则化到接近零。
岭回归
上图显示了岭回归,其中RSS 通过添加收缩量进行修改。现在,通过最小化此函数来估计系数。这里,λ是调整参数,它决定了我们希望对模型的灵活性施加多大惩罚。模型灵活性的增加由其系数的增加表示,如果我们希望最小化上述函数,则这些系数需要很小。这就是岭回归技术如何防止系数过高的原因。同时,请注意,我们收缩了每个变量与响应的估计关联,除了截距β0。这个截距是当 xi1 = xi2 = …= xip = 0 时响应的均值的度量。
当λ = 0 时,惩罚项没有效果,岭回归所产生的估计值将等于最小二乘估计。然而,随着λ→∞,收缩惩罚的影响逐渐增大,岭回归系数估计将趋近于零。如上所示,选择一个合适的λ值是关键。交叉验证对于这个目的非常有用。该方法产生的系数估计也被称为 L2 范数。
标准最小二乘法产生的系数是尺度不变的,即如果我们将每个输入乘以 c,则相应的系数将按 1/c 的因子进行缩放。因此,无论预测变量如何缩放,预测变量与系数的乘积(X[j]β[j])保持不变。然而,岭回归的情况则不同,因此,在进行岭回归之前,我们需要对预测变量进行标准化或将预测变量调整到相同的尺度。用于此操作的公式如下所示。
套索回归
套索回归是另一种变体,其中上述函数被最小化。显然,这种变体与岭回归的区别在于对高系数的惩罚。它使用|βj|(绝对值)而不是β的平方作为惩罚。在统计学中,这被称为 L1 范数。
让我们从不同的角度来看待上述方法。岭回归可以看作是求解一个方程,其中系数的平方和小于或等于 s。而套索回归可以看作是一个方程,其中系数的绝对值之和小于或等于 s。这里,s 是对于每个收缩因子λ值存在的常量。这些方程也被称为约束函数。
考虑给定问题中有 2 个参数。 然后根据上述公式,岭回归表示为β1² + β2² ≤ s。这意味着岭回归系数在所有位于β1² + β2² ≤ s 的圆内的点上具有最小的 RSS(损失函数)。
同样,对于套索回归,方程变为 |β1|+|β2|≤ s。这意味着套索回归系数在所有位于由 |β1|+|β2|≤ s 给出的菱形内部的点上具有最小的 RSS(损失函数)。
下图描述了这些方程。
上图展示了套索回归(左)和岭回归(右)的约束函数(绿色区域),以及 RSS 的轮廓(红色椭圆)。椭圆上的点共享 RSS 的值。对于非常大的 s 值,绿色区域将包含椭圆的中心,使得两种回归技术的系数估计等于最小二乘估计。然而,上图中的情况并非如此。在这种情况下,套索回归和岭回归的系数估计由椭圆与约束区域接触的第一个点给出。由于岭回归具有没有尖锐点的圆形约束,因此这种交点通常不会发生在轴上,因此岭回归系数估计将完全非零。
然而,套索回归的约束在每个轴上都有角,因此椭圆通常会在轴上与约束区域相交。当这种情况发生时,其中一个系数将等于零。 在高维空间(参数远多于 2 的情况)中,许多系数估计可能会同时等于零。
这揭示了岭回归显而易见的缺点,即模型的可解释性。 它会将对最不重要预测变量的系数收缩到非常接近零,但永远不会将其完全变为零。换句话说,最终模型将包括所有预测变量。然而,在套索回归的情况下,L1 惩罚的效果是,当调节参数 λ 足够大时,迫使一些系数估计恰好为零。因此,套索方法还执行变量选择,并且被认为能够产生稀疏模型。
正则化的目标是什么?
标准最小二乘模型通常具有一定的方差,即该模型对于与其训练数据不同的数据集泛化效果较差。正则化显著减少了模型的方差,而不会显著增加其偏差。因此,正则化技术中使用的调节参数 λ 控制对偏差和方差的影响。随着 λ 值的增加,它会减少系数的值,从而减少方差。在某一点之前,λ 的增加是有益的,因为它仅减少方差(从而避免过拟合),而不会丢失数据中的任何重要属性。 但在某个值之后,模型开始丢失重要属性,导致模型偏差,从而出现欠拟合。因此,λ 的值应仔细选择。
这些都是你开始学习正则化所需的基础知识。这是一种有用的技术,可以帮助提高回归模型的准确性。一个实现这些算法的流行库是 Scikit-Learn。它拥有一个出色的 API,可以让你的模型在 仅用几行 Python 代码 的情况下运行起来。
如果你有任何问题,请留下评论,我会尽力回答。
你也可以通过 Twitter、直接发邮件给我 或 在 LinkedIn 上找我。我很期待你的消息。
这就是所有内容了,祝大家有美好的一天 :)
致谢
本文内容的灵感来源于《统计学习简介》一书,由 Gareth James、Daniela Witten、Trevor Hastie 和 Robert Tibshirani 合著。
简介: Prashant Gupta 是一名机器学习工程师、安卓开发者、技术爱好者。
原文。已获许可转载。
相关