原文:
www.kdnuggets.com/2020/04/3-reasons-random-forest-neural-network-comparison.html
评论
神经网络已被证明在许多行业领域中优于多种机器学习算法。它们会不断学习,直到找到最佳特征集以获得令人满意的预测性能。然而,神经网络会将你的变量缩放成一系列数字,一旦神经网络完成学习阶段,这些特征对我们来说变得不可辨识。
如果我们只关心预测,神经网络将是唯一常用的算法。但在行业环境中,我们需要一个能给利益相关者提供特征/变量含义的模型。这些利益相关者很可能不是拥有深度学习或机器学习知识的人。
随机森林算法和神经网络是不同的技术,它们学习的方式不同,但可以用于类似的领域。随机森林算法是一种机器学习技术,而神经网络则专属于深度学习。
一个神经网络是一个计算模型,松散地基于人类大脑皮层的功能,以复制相同的思维和感知方式。神经网络按层组织,由互联的节点组成,这些节点包含一个激活函数,用于计算网络的输出。
神经网络是另一种机器学习方式,其中计算机通过分析训练示例来学习执行任务。由于神经网络松散地基于人脑,它将由成千上万或数百万个互联节点组成。一个节点可以连接到下层中的多个节点,从中接收数据,以及多个上层节点接收数据。每个传入的数据点会接收一个权重,并进行乘法和加法。如果加权和等于零,则添加偏差,然后传递到激活函数。
神经网络有 3 种基本架构:
1. 单层前馈网络
- 这是一个最简单的网络,是感知器的扩展版本。它在输入层和输出层之间有额外的隐藏节点。
2. 多层前馈网络
- 这种网络类型除了输入层和输出层之外,还有一个或多个隐藏层。它的作用是在输入层和输出层之间进行数据传输的干预。
- 循环神经网络类似于上述网络,但被广泛应用于预测序列数据,如文本和时间序列。最著名的循环神经网络是‘长短期记忆(LSTM)模型’。
随机森林算法 是决策树的集成,其中最终/叶节点将是分类问题的多数类或回归问题的平均值。
随机森林算法将生长许多分类树,对于每个来自该树的输出,我们称这棵树‘投票’给那个类别。树的生长步骤如下:
-
每棵树将从训练数据中随机抽取一部分行。
-
从步骤(1)中采样的特征子集将被用来进行每棵树的分裂。
-
每棵树会按照参数指定的最大程度生长,直到它对类别进行投票。
使用随机森林算法而非决策树的根本原因是将许多决策树的预测结果组合成一个模型。逻辑是,即使由许多平庸模型组成的单一模型也会优于一个优秀模型。考虑到随机森林算法的主流性能,这一点是有道理的。由于这一点,随机森林算法较少容易过拟合。
灵活模型如决策树可能会出现过拟合,其中模型会记住训练数据并学习数据中的噪声。这将使其无法预测测试数据。
随机森林算法通过将许多树组合成一个集成模型,可以减少像决策树这样的灵活模型的高方差。
随机森林算法的计算开销较小,并且不需要 GPU 来完成训练。随机森林算法可以为你提供与决策树不同的解释,但性能更优。神经网络需要的数据量远超过普通人手头能获得的数据,才能真正有效。神经网络将会极大地削弱特征的可解释性,使其为了性能的需要变得毫无意义。虽然这对一些人来说可能听起来合理,但这取决于每个项目。
如果目标是创建一个预测模型而不考虑变量的影响,完全可以使用神经网络,但你需要相应的资源。如果需要理解这些变量,那么无论我们是否喜欢,通常情况下,性能会稍微下降,以确保我们仍然可以理解每个变量如何影响预测模型。
RANDOM FORESTS 和 RANDOMFORESTS 是 Minitab, LLC 的注册商标。
原始内容。经许可转载。
相关:
-
随机森林® — 一种强大的集成学习算法
-
随机森林®与神经网络在预测客户流失中的比较
-
比较决策树算法:随机森林®与 XGBoost
1. Google 网络安全证书 - 快速进入网络安全职业
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你组织的 IT 需求