原文:
www.kdnuggets.com/2017/06/regression-analysis-really-machine-learning.html
统计学与机器学习有何不同?
这是一个广泛的话题,已经被多次讨论。关于这个话题写的内容中,有很多是好的,也有很多是不好的。但我发现,统计学与机器学习的争论在那个层面上,往往过于关注整体,忽视了细节。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 工作
例如,Aatash Shah 写道:
- 机器学习是一种能够从数据中学习的算法,而无需依赖基于规则的编程。
- 统计建模是对数据中变量之间关系的数学方程式形式的形式化。
Shah 的定义,我相信反映了许多方法,倾向于关注这些概念各自范围的不同端点,将机器学习视为实际活动,将统计学视为理论抽象(是的,我在这里将“统计建模”与“统计学”合并在一起……至少,暂时如此)。统计学与机器学习之间的关系实际上非常复杂,仅仅定义这两个概念对剖析这种联系并没有帮助。
对这个广泛的话题进行哲学性讨论很快会变成说教:
-
统计学是机器学习建立的基础吗?
-
机器学习是否是“传统”统计学的超集?
-
这两个概念是否有一个共同的第三个统一概念?
我相信这种高层次的方式是误导性的,并且最终是浪费时间。即使你有兴趣探讨这样的话题,研究更具体的问题可能会更有成效,并可能(希望?)导致更具体的结论。此外,更准确的框架是统计学与机器学习模型的比较。
所以,在这个背景下……回归分析实际上是一种机器学习形式吗?
Gregory Piatetsky-Shapiro,KDnuggets 的主席,在我询问他对这个更具体话题的看法时,分享了以下内容,驳斥了回归过于“简单”而不能被视为机器学习的观点:
一些机器学习研究者可能认为“传统”的线性回归过于简单,无法被视为“机器学习”,而仅仅是“统计学”,但我认为机器学习与统计学之间的界限是人为的。C4.5 决策树算法也不复杂,但它可能被认为是机器学习。
更高级的算法来源于线性回归,例如岭回归、最小角回归和 LASSO,这些算法可能被许多机器学习研究者使用,为了正确理解它们,你需要理解基础的线性回归。
是的,线性回归应该成为任何机器学习研究者工具箱的一部分。
我询问了Diego Kuonen 教授,CStat PStat CSci -- 瑞士 Statoo Consulting 首席执行官及首席行政官,瑞士日内瓦大学数据科学教授 -- 他很友好地提供了以下见解:
每个监督分析模型(来自统计学、数据科学和/或机器学习)都对输出的分布(或其某些方面)如何依赖于模型输入做出了假设。如果不做任何假设,就没有合理的基础来对观察到的数据进行推广。
因此,只基于有效模型(即假设经过验证的模型)得出结论是有意义的。换句话说,任何结论的可靠性取决于其所基于的模型。
如果你愿意,这种方法采用了较少分歧、更多统一的方式,将统计模型和机器学习模型都视为实现终极目标的工具:理解数据。Diego 似乎更关注工具的使用方式,而不是工具本身,确保工具的使用得当,构建有效的模型,并且结果是对数据的理解加深。讨论统计与机器学习的具体关系毫无意义,如果最终的归纳基于无效模型,不管采用什么方法构建模型。
就我个人而言,我多年来一直在思考这些问题。从我首次接触线性回归,以及在较小程度上接触决策树——从数据挖掘的书籍和课程的角度——我最初对这些简单的概念竟然可以被认为是“机器学习”感到非常惊讶。尤其是考虑到在那时我已经对统计学中的回归非常熟悉,而在这些早期的学习过程中没有人提到过“机器学习”这个术语。我想这可能是我所处的位置上的其他人,在教育和/或职业生涯的类似阶段也会有类似的反应。
简单来说,正如我曾经详细考虑过的数据挖掘与机器学习的关系——这也可能成为一种徒劳的行为——我喜欢将数据挖掘视为一个过程,而机器学习则是促进这一过程的工具。结合现代统计学定义(通过 Kuonen 提供的定义)是“从数据中学习的科学(或从数据中找出意义),以及测量、控制和传达不确定性”,我乐于接受将数据挖掘快速而粗略地定义为“高速度的大规模统计分析”。
类似地,机器学习的一个简化定义是由三部分组成:1)数据,2)模型或估计器,以及 3)要最小化的成本或损失。机器学习的整个存在理由是优化损失函数的过程,这个过程处理人类可以手动解决的类似统计问题,并大大增加了可以处理的数据的数量和/或性质。
那么,回到最初的问题(再一次),线性回归——回归分析中最简单的形式——是否符合这些要求?
似乎确实如此!
当然,这并不能完全解决问题。如果我有一组 10 个数据点,绘制其中的 9 个数据点,将第 10 个数据点保留用于“测试”,然后通过手动解决方程并绘制结果,这算不算机器学习?如果这不算——显然不算——那么过渡到机器学习的界限在哪里?100 个数据点?足够多的实例属性?仅仅是使用计算机?我更倾向于将“传统”统计学和机器学习视为一个光谱的两个极端,并且这两者之间的过渡区域永远是模糊和无法定义的。
顺便提一下,与上述内容相反,迈克·约曼斯已经写道关于机器学习,我们应该“[t]将其简单地视为一个统计学分支,旨在处理大数据世界”,这一观点得到了库奥农的一些认可。库奥农还指出,虽然可以争论“数据挖掘是大规模和高速的统计学”(达里尔·普雷吉本,1999),但他指出它们的方法存在差异,你可以在这里阅读更多。
我将把最后的话留给凯文·格雷,Cannon Gray 的总裁,他在我联系他以征求意见时,恰到好处地总结了这个话题,怀疑这整个讨论是否真的必要。
我的观点是我不知道,但我想知道这是否重要。我对地区、爱国主义等事物不擅长。如果感觉不错(足够好),就做吧!:-)
我想特别感谢迪亚哥·库奥农教授,感谢他在写作过程中提供的意见和反馈。
相关:
-
线性回归、最小二乘法与矩阵乘法:简明技术概述
-
回归分析:入门
-
大数据、圣经密码与邦费罗尼