原文:
www.kdnuggets.com/2021/07/10-machine-learning-model-training-mistakes.html
评论
作者:Sandeep Uttamchandani, Ph.D.,既是产品/软件开发者(工程副总裁),也是企业范围内数据/AI 项目的领导者(首席数据官)
机器学习模型训练是整个模型构建过程中最耗时和资源的部分。训练本质上是迭代的,但在某些迭代过程中,错误可能会渗入。在这篇文章中,我分享了机器学习模型训练中的十个致命错误——这些错误是最常见的,也是最容易被忽视的。
在模型训练过程中,有时损失-轮次图表会反复波动,不论轮次多少都似乎无法收敛。没有万能的解决方案,因为需要调查多个根本原因——不良训练样本、缺失的真值、变化的数据分布、过高的学习率。我见过的最常见原因是不良训练样本,涉及异常数据与不正确标签的组合。
有时,模型似乎正在收敛,但突然损失值显著增加,即损失值在减少后突然显著增加。这种损失爆炸有多种原因。我见过的最常见原因是数据中的离群值没有均匀分布/打乱。打乱一般来说是一个重要步骤,包括在损失表现出重复步进函数行为的模式中。
对于多类别预测问题,除了跟踪总体分类准确性外,通常还需优先考虑特定类别的准确性,并逐步改进模型。例如,在对不同类型的欺诈交易进行分类时,根据业务需求,专注于提高特定类别(如外国交易)的召回率。
与其构建一个通用模型,不如想象为特定地理区域或特定用户画像构建模型。特定性会使数据更加稀疏,但可能会提高对这些特定问题的准确性。在调优过程中,探索特定性和稀疏性的权衡是很重要的。
预测偏差是预测平均值和数据集中标签平均值之间的差异。预测偏差是模型问题的早期指标。较大的非零预测偏差表明模型中存在某个地方的错误。关于广告点击率的一个有趣的 Facebook 论文。通常,偏差在预测桶之间的测量是有用的。
95% 的准确率意味着 100 次预测中有 95 次是正确的。在数据集中存在类别不平衡的情况下,准确率是一个有缺陷的指标。应该深入调查诸如精准度/召回率等指标,以及它们如何与整体用户指标(如垃圾邮件检测、肿瘤分类等)相关联。
λ 是在简单性和训练数据拟合之间取得平衡的关键参数。高 λ → 简单模型 → 可能欠拟合。低 λ → 复杂模型 → 可能对数据过拟合(无法推广到新数据)。理想的 λ 值是能够很好地推广到以前未见过的数据的值:依赖数据并需要分析。
使用相同数据进行参数和超参数设置的次数越多,对结果实际推广能力的信心就越小。重要的是收集更多的数据,并不断增加测试和验证集。
鉴于神经网络中的非凸优化,初始化很重要。
当发现错误标签时,可能会很想立即修复它们。首先分析误分类示例的根本原因是很重要的。通常,由于标签错误引起的错误可能只占很小的比例。可能存在更大的机会来更好地训练针对特定数据片段的模型,这些数据片段可能是主要的根本原因。
总结来说,避免这些错误可以让你在大多数其他团队中脱颖而出。将这些作为你的流程检查清单。
简介: Sandeep Uttamchandani, Ph.D.: 数据 + 人工智能/机器学习 -- 既是产品/软件构建者(工程副总裁)也是企业范围内数据/人工智能项目的领导者(首席数据官) | O'Reilly 图书作者 | DataForHumanity 创始人(非营利组织)
原文。经授权转载。
相关:
-
如何判断你的机器学习模型是否过拟合
-
使用 PyCaret 编写和训练你自己的自定义机器学习模型
-
如何在 20 天内破坏一个模型——关于生产模型分析的教程
1. 谷歌网络安全证书 - 快速入门网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求