Skip to content

Latest commit

 

History

History
81 lines (41 loc) · 6.95 KB

winner-stepwise-regression.md

File metadata and controls

81 lines (41 loc) · 6.95 KB

胜者是…逐步回归

原文:www.kdnuggets.com/2016/08/winner-stepwise-regression.html

作者:Jacob Zahavi 和 Ronen Meiri,DMWay Analytics。

编者注:这篇博客文章曾参与最近的 KDnuggets 自动化数据科学和机器学习 博客比赛,并获得了荣誉提名。

预测分析(PA),数据科学的核心领域之一,致力于基于已知响应值的过去观察来预测未来响应。在这个大数据时代,PA 模型面临的主要问题是维度问题,这使得模型构建过程变得非常繁琐和耗时。

最复杂的部分是特征选择问题——选择最具影响力的预测变量来“解释”响应。这里存在两个相互矛盾的关注点:预测准确性,由预测误差的方差决定,以及在对新观察应用模型结果时的预测偏差。随着更多预测变量被引入模型,模型的准确性通常会提高,但偏差可能会加重。因此,通常需要在准确性和偏差之间进行权衡分析,以找到模型的“最佳”预测变量集。由于噪声数据、冗余预测变量、多重共线性、缺失值、异常值等因素的影响,情况会变得更加复杂。

特征选择问题的复杂性导致了几种自动化此过程的方法的发展,涉及三类

方法包括统计方法、随机方法和降维方法。在这项研究中,我们进行了一项研究,寻找表现最佳的模型,涉及每类模型中的“代表性”模型——统计方法的逐步回归(SWR)、随机方法的模拟退火(SA)以及降维方法中的主成分分析(PCA)和径向基函数(RBF)。SWR 使用假发现率(FDR)算法进行校准;SA 使用随机但系统的搜索方法,提高其收敛到全局最优解的可能性;最后,降维方法将多个属性合并为一组更小的“巨型”响应预测变量。

我们对线性回归(LR)模型进行了研究,不仅因为它是机器学习(ML)中最常见的模型之一,还因为它构成了许多其他 ML 方法的基础。

为了“公平比较”,我们优化了每个模型类别的模型配置,然后将表现最佳的模型进行比较。在这一点上,我们忽略了原始变量的变换,这可能会使某些模型类型相较于其他模型有优势,并且仅使用原始变量进行了比较分析。所有方法都应用于由 DMEF(直接营销教育基金会)提供的三个现实营销数据集,分别称为非营利、专业和礼品,每个数据集包含约 100,000 个观察值和潜在预测变量的分数。

我们使用了著名的 R2(“R 平方”)标准作为拟合度的衡量标准,寻求最大化验证数据集 R2 的模型,前提是验证数据集 R2 与训练数据集 R2 之间的比率大致等于 1.0。最大化 R2 确保了模型的高准确性。R2 比率接近 1 的约束意味着没有过拟合。方法的评估基于数据挖掘中常见的几个性能指标,包括增益图、最大提升(M-L)和 Gini 系数。

为了便于评估,我们将所有四个模型(SWR、SA、PCA 和 RBF)的增益图叠加在一起,对应于上述数据文件(图 1-3)。每个增益图对应于模型类别中各自模型的最佳参数配置。表 1 展示了相关的总结统计数据。所有增益图,以及相关的 Gini 和 M-L 指标,都展示在验证数据集中。

图 1

图 1:非营利文件(点击放大)

图 2

图 2:专业文件(点击放大)

图 3

图 3:礼品文件(点击放大)

表 1

表 1:模型比较(点击放大)

令人惊讶的是,著名的 SWR 模型与被认为更强大的 SA 模型产生了相似的结果。我们将这些结果归因于市场上人们的理性行为,这在数据库中反映出来,产生了“行为良好”的数据集,数据元素之间没有复杂的关系。因此,即使是短视的 SWR 模型也能识别出最有影响力的预测变量。至于降维方法,在所有数据文件中表现都远不如 SWR。对此现象的一个可能解释是,在降维过程中没有考虑响应变量,从而产生了“较弱”的响应预测变量。

这些结论具有重要的实际意义,因为它们表明,在市场营销应用中,可能同样可以使用传统的 SWR 算法来构建大规模的 LR 模型。不仅 SWR 是一个广为人知并且有广泛软件可用的算法,而且进一步的研究表明,SWR 有足够的灵活性来允许使用任何合理范围的 p 值来移除/引入变量到模型中,仍然能得到一个有效的模型。虽然还需要进一步研究以将此研究结果推广到其他领域,但在市场营销应用中,最终获胜者是……逐步回归!

雅各布·扎哈维博士DMWay Analytics的联合创始人兼首席行政官,并且是特拉维夫大学管理学院的名誉教授。他主要研究数据挖掘,拥有超过 25 年的经验,涵盖了研究、教学、软件开发和应用等多个方面。他还曾两次获得 KDD CUP 比赛的金奖。

罗嫩·梅里博士DMWay Analytics的联合创始人兼首席技术官,在包括精算、行为定向、信用风险、预测、客户保留、欺诈检测等多个行业中拥有 15 年的高级分析实践经验。

相关:

  • 数据科学机器,或‘如何进行特征工程’

  • TPOT:自动化数据科学的 Python 工具

  • 自动数据科学:DataRobot、Quill 和 Loom Systems


我们的前三推荐课程

1. Google 网络安全证书 - 加入网络安全职业的快车道

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织 IT 需求


更多相关话题