原文:
www.kdnuggets.com/2018/04/onboarding-machine-learning.html
Adam Hunt,首席数据科学家,RiskIQ
现如今,“机器学习”是你在阅读几乎任何行业时无法避免的流行词汇。
其“超越”人类的能力被誉为一种神奇的投资回报率提升器,能够在最小化资源支出的同时极大地提高生产力。安全行业也不例外。随着互联网规模的攻击活动压倒了安全团队,导致他们在海量数据中难以快速处理警报,机器学习本应成为现代网络安全问题的灵丹妙药。然而,随着巨大的宣传往往带来巨大的失望,我们现在正在经历越来越多的人的反感,他们认为机器学习根本没有达到预期。
事实是,机器学习并不是万能的灵丹妙药。然而,这并不意味着它对安全程序没有极大的帮助,也对网络安全的未来至关重要,人们只需要重新考虑使用它的方式。与其将其视为全能的机器人霸主,揭示其潜力的秘诀是将其视为一个非常初级的员工。
机器学习并不是房间里的那个唯一
机器学习模型快速、无疲倦、记忆力强但完全没有常识。就像任何一个实习生在第一天一样,你不会指望它知道你的组织如何运作,也不一定知道你希望它最终掌握的概念。当你开始使用机器学习程序时,把它当作一个入职培训过程来思考。一开始,你需要频繁检查你的模型,并花费大量时间将它们引导到正确的方向。最初,这些模型希望通过处理大量数据以惊人的速度推动你的业务达到新高,但它们甚至不理解你要求它们完成的任务。
机器学习无法进行批判性思维,这可能是大多数失望的来源,也解释了为什么在机器学习时代的网络安全中,人类需要扮演非常重要的角色。由于你的模型是低层次(但勤奋)的任务执行者,无法看到全局,你需要不断地喂给它们指令。随着时间的推移,它们会根据你的反馈逐渐识别模式,并开始理解你希望它们寻找的内容。
随着你的模型学习,你需要对它们进行的检查会越来越少,但它们不能也不应该完全自主。它们不会像你一样看待事物,也不会遵循像我们自己的思维过程。它们可能会迅速偏离当前任务,导致你的整个程序陷入混乱。
下面是如何充分利用你的机器学习程序,以确保它能够兑现其宣传的方式:
实施安全网和监控:
一旦你认为你的模型表现良好,你需要一些措施来确保它不会偏离轨道。在构建管道之前,请确保你有适当的安全网。第一个安全网就是我们所称的触发器。如果你的模型在某一段时间内分类的实例数量超出了你的预期,你的触发器会自动禁用它。这一措施对于防止你的模型失控至关重要。
模型在首次发布时出现偏离预期的情况非常常见,因为虽然你提供了一个全新的、精心挑选的数据集供模型学习,但现实世界非常复杂,复杂程度远超你的预期。就像一个刚毕业的大学生,你的模型将遇到课本中没有的情况,从而使其依赖于通过训练数据形成的偏见。
例如,如果你的训练数据仅包含猫和狗,当你提供给它一条鱼时,它会尝试将其分类为猫或狗。与具备常识的人不同,你的模型需要被纠正,从错误中学习并重新尝试。用于训练你模型的算法也存在固有的偏见。就像人一样,每个模型都会对问题形成自己的观点。起初,它会做出过于简单的假设(我们稍后会详细讲解)。
下一个安全网是白名单。这些是你希望你的模型忽略的项目列表。在理想情况下,你不需要白名单,因为你会投入时间来优化特征并重新训练你的模型,直到它正确处理特定的例子。然而,当你需要立即采取行动时,你会感激自己拥有这些白名单。虽然不是理想的解决方案,但白名单不仅能防止你当前的模型错误分类实例,还能帮助你的未来模型。
防止退化:
你的模型一开始可能工作正常,但如果没有适当的反馈,其性能会随着时间的推移而退化(第一周的精确度会比第十周更高)。模型退化到不可接受水平所需的时间取决于你的容忍度和模型对问题的泛化能力。
世界时刻在变化,你的模型也应随之变化。如果你希望你的模型跟上当前的趋势,选择一个基于实例的模型或一个可以增量学习的模型是至关重要的。就像频繁的反馈帮助员工学习和成长一样,你的模型也需要这种反馈。
主动学习:
主动学习让专家参与其中。当模型不确定如何对某个实例进行分类时,能够请求帮助是至关重要的。模型通常会提供一个概率或分数,其预测会根据你提供的某个阈值转化为二元决策(即威胁或非威胁)。
但如果没有指导,情况会很快变得棘手。想象一个初级安全研究员不知道如何评估某个威胁。他们认为某些东西可能是恶意的,但不确定。他们发了一封邮件请求帮助,但那封邮件可能一个月或更久都没有得到回应。
如果员工自由行动,他们可能会做出错误的假设。如果实例刚好低于截止点,但威胁是真实的,模型将继续忽略它,导致潜在的严重假阴性。然而,如果模型选择采取行动,它将继续标记良性实例,产生大量假阳性。开发一个反馈机制,使你的模型能够识别和展示可疑项,对模型的成功至关重要。
混合与协同训练:
每个人都知道协作和多样性有助于组织成长。当首席执行官被“唯唯诺诺”的人包围,或者孤狼决定自己可以做得更好时,想法会停滞。机器学习模型也不例外。数据科学家有他们“首选”的算法来训练他们的模型。重要的是不仅要尝试其他算法,还要将不同的算法结合起来尝试。
结论
我们生活在一个数据驱动的社会中,人类真的无法独自应对。通过一些工作,机器学习可以用来利用员工的知识和能力来填补人才库中的必要空缺。然而,机器学习模型不是你可以设置后就不管的东西。它们需要频繁的反馈和监控,以提供最佳性能。为自己着想,让反馈变得简单。你投入的时间将带来回报。
个人简介:亚当·亨特 是 RiskIQ 的首席数据科学家。他拥有普林斯顿大学的物理学博士学位(2013 年)。
相关:
1. Google 网络安全证书 - 快速通道进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织在 IT 领域