Skip to content

Latest commit

 

History

History
71 lines (36 loc) · 6.45 KB

machine-learning-puzzle-explained.md

File metadata and controls

71 lines (36 loc) · 6.45 KB

机器学习难题,解释

原文:www.kdnuggets.com/2019/06/machine-learning-puzzle-explained.html

c 评论

之前我写过关于 数据科学难题 的文章,概述了与数据科学相关的多个关键概念,并尝试解释这些概念之间的关系及其如何结合在一起。这次我们将以类似的方式探讨机器学习模型。

请记住,我们将从监督学习的角度来探讨机器学习,所有概念都围绕分类作为我们的目标进行讨论(虽然回归也是类似的)。重要的是,这种难题视角不会涵盖其他机器学习范式,如无监督学习和强化学习,因此在揭示这些部分时要记住这一点。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 加速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你组织的 IT


说到这里,请继续阅读,了解机器学习难题如何组合在一起。

机器学习难题

机器学习是数据科学的主要技术驱动因素之一。数据科学的目标是从数据中提取洞察,而机器学习是使这一过程得以自动化的引擎。机器学习算法不断促进计算机程序从经验中自动改进,这些算法在各种不同领域中变得越来越重要。

数据是当今世界运转的基础。数据是输入机器学习算法以进行“学习”的内容。特定的数据集是静态的、有限的实例— 或观察值 — 及其对应的特征;如果我们考虑用于训练和测试模型的数据,还会存在一个类别标签 — 或目标 — 以定义观察值所属于的分类组。简单来说,可以将数据视为一个表格(尽管不一定非如此),在这种情况下,表格中的行是实例,而列是特征。数据不必以简单的表格形式排列;然而,我们尽力将数据整理成多维数组 — 具有不同维度 — 这些数组足够稳健,能够捕捉到我们能想到的各种数据表示,前提是我们有时使用一些独创性的办法。

机器学习算法是用于学习如何最好地建模数据的特定方法和步骤序列。算法使用不同的方法来尝试最佳预测数据实例的标签,基于该实例的特征值。在数据实例足够多的情况下,机器学习算法的目的是能够以某种程度的成功(无论你如何定义成功)来近似给定实例所属的类别,因此有了“分类”这一术语。超参数是可以调整的旋钮,用于微调算法的“学习”。

简单来说,算法 + 数据集 = 模型。模型是数据和算法在训练阶段后的结果,此时生成的模型已经“学会”了如何理解数据,即如何从实例的特征集得出类别预测。模型是一个数学函数(作为训练的结果创建;见下文),能够接受数据集中的实例并预测其类别成员资格。

算法如何利用数据创建模型?这通过训练来实现,这一过程将部分可用数据,即训练集,输入算法中,算法经过其步骤并生成一个训练好的模型。然后,可以将这个训练好的模型应用于未见过的持出数据,作为验证集,以检查它在对从未见过的数据进行分类时的表现如何。最后,可以使用测试集来区分不同模型的质量,这是一组未见过的数据,仅在模型经过优化以达到最佳性能后,才会呈现给最终产品。

损失函数是通过对训练数据实例的类别预测和实际类别标签进行比较的机制。机器学习算法的目标是通过迭代最小化这个损失——损失函数输出的值代表预测和现实之间的距离——因此,这个值越低,模型对类别标签的预测学习得越好。

还有什么用来确定模型表现的好坏?有许多指标可用于模型评估。对于分类,最简单的形式是准确率,即正确预测的比例。精确率和召回率是另一对有用的分类指标,还有其他指标。回归,这一分类的连续变体,使用一组不同的指标来确定预测值与实际值之间的距离。

图像

来源:斯坦福大学 Andrew Ng 的机器学习课程

你的模型在预测训练数据的类别方面做得很好,但对保留数据集的泛化效果不好吗?你可能陷入了过拟合的困境,这是一种模型对问题的内部理解紧密依赖于训练集中的特定实例的情况。过拟合是未能区分信号和噪声,而是将所有数据视为信号。

解决过拟合的一个方法是正则化,这是一种对特定模型参数施加惩罚的方法,以强制学习一个较少灵活、较少复杂的模型。这种缺乏复杂性的模型应当不会很好地捕捉训练数据的细微差别,并且应该对未见过的数据有更好的泛化能力。

以上是一些核心概念的简要介绍,这些概念适合对机器学习领域感兴趣的新手。理解这些基本概念可以帮助建立一个坚实的基础,以构建你内部的机器学习框架。

相关

  • 数据科学难题,再探讨

  • 机器学习的本质

  • 机器学习项目检查清单

更多相关话题