原文:
www.kdnuggets.com/2016/11/lean-sigma-six-help-machine-learning.html
作者:Joseph Chen,高级管理人员及 BI、数据仓库、六西格玛和运筹学领域的架构师。
在过去 10 多年中,我一直在使用精益六西格玛(LSS)来改进业务流程,对其效果非常满意。最近,我与一家咨询公司和一位软件供应商合作,实施了一个机器学习(ML)模型,以预测服务部件的剩余使用寿命(RUL)。让我感到最沮丧的是模型的准确性较低。如下面所示,如果人们将偏差测量为实际部件寿命与预测寿命之间的绝对差异,所得到的模型对选定的 3 个部件的平均偏差分别为 127 天、60 天和 36 天。我无法理解为什么机器学习的偏差如此之大。
在与顾问和数据科学家合作后,他们似乎只能通过数据清理将偏差改善 10%。这让我感到非常困惑。对我来说,即便在 10%的改善之后,这种偏差仍然使得预测对业务负责人来说毫无用处。这迫使我问自己以下问题:
-
机器学习真的适合作为预测工具吗?
-
人们对机器学习了解不足的是什么?
-
机器学习中缺少了什么?精益六西格玛能填补这个空缺吗?
精益六西格玛(LSS)的目标是通过减少过程的方差来提高过程性能。方差定义为 LSS 实际值与预测值之间的平方差和。LSS 的结果本质上是一个统计函数(模型),它在一组输入/自变量和输出/因变量之间建立关系,如下图所示。
通过识别输入变量与输出变量之间的相关性,LSS 模型告诉我们如何控制输入变量,以使输出变量达到我们的目标值。最重要的是,LSS 还要求被监控的过程是“稳定”的,即通过减少输入变量的方差来最小化输出变量的方差,从而达到所谓的“突破”状态。
如下图所示,如果你在没有方差控制的情况下(左图中目标周围的分布)独自达到目标(中心),就无法保证你达到了目标;如果在没有达到目标的情况下减少方差(右图),则会错过目标。只有通过保持方差小且集中,LSS 才能确保过程目标以精确的精度和可持续的最佳过程性能达成。这是 LSS 的主要贡献。
对于有监督机器学习,它关注输入变量集与输出变量之间的函数,以得出“近似”理想函数,如下图中的绿色曲线所示。
同样,对于无监督机器学习,它寻找能够最好地区分一组簇的函数。
众所周知,由于偏差和正常随机性,过程本质上是随机的;即,过程具有方差。因此,经典统计学和 LSS 都表明,如果输入变量具有较大方差,我们会预期输出变量也会有较大的方差。
如果 Y=a[1]x[1]+a[2]x[2]+...+a[n]x[n],则 Var(Y)=a[1]²Var(x[1])+a[2]²Var(x[2])+...+a[n]²Var(x[n])。
这强烈暗示了当输入变量具有较大方差时,机器学习模型的不准确性。这就是为什么我认为我最近的机器学习项目在预测中有如此大的不准确性,以及数据清洗只能提高准确性最多 10%的原因。
人们可能会争论数据清洗是否能提高预测质量。问题在于,机器学习(ML)中的数据清洗与最小二乘法(LSS)的方差减少不同。在 LSS 中,人们会回顾业务过程以寻找输入变量的方差源,以消除偏差或减少这些输入变量(因素)的方差;而在 ML 中,人们不会回顾业务过程;相反,ML 中的人们只是尝试纠正数据错误或消除无意义的数据。因此,这种数据清洗方法实际上并不会减少方差;实际上,它可能不会改变输入方差。因此,如果人们不了解方差的作用,ML 模型可能不会很好地工作。
例如,如果下图左侧的图表代表数据清洗后的数据点,我们会得到红色曲线作为最优 ML。但是,如果下图右侧的图表代表方差减少后的数据点,得到的 ML 模型会更加准确。
总结来说,我认为当前机器学习模型的数据清洗需要包含 LSS 的方差减少技术,以便为监督学习和无监督学习提供准确、可靠和有效的模型。人们需要花费精力审查潜在的业务流程,以减少输入方差,使其更好地解决现实世界的问题。
软件供应商和数据科学咨询公司应在机器学习的数据清洗阶段采用方差减少技术,以提供机器学习的实际价值。
简历:Joseph Chen 是一名六西格玛黑带,以及数据科学、商业智能和数据仓库的首席架构师。他拥有运筹学、信息科学和工业工程的学位,具有超过 18 年的高级分析、商业智能、数据仓库、精益六西格玛、流程优化、运营分析等领域的工作经验。
相关:
-
伟大的算法教程汇总
-
数据科学基础:数据挖掘与统计学
-
数据准备技巧、窍门和工具:与业内专家的访谈
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 管理