Skip to content

Latest commit

 

History

History
145 lines (79 loc) · 15.8 KB

ai-data-science-machine-learning-key-terms-2020.md

File metadata and controls

145 lines (79 loc) · 15.8 KB

2020 年你需要了解的 20 个 AI、数据科学、机器学习术语(第一部分)

原文:www.kdnuggets.com/2020/02/ai-data-science-machine-learning-key-terms-2020.html

评论

过去,KDnuggets 曾涵盖过关键术语的集合,包括机器学习、深度学习、大数据、自然语言处理等。随着新的一年的到来,并且由于我们最近没有发布任何关键术语的集合,我们认为突显一些 AI、数据科学和机器学习的术语是个好主意,这些术语是我们现在应该熟悉的,以适应不断发展的环境。

因此,这些术语结合了一些新兴的概念以及最近可能被认为更为重要的现有概念。这些定义是 KDnuggets 团队的共同努力,包括 Gregory Piatetsky, Asel Mendis, Matthew Dearing 和我自己,Matthew Mayo。


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你所在组织的 IT


另见 2020 年你需要了解的 20 个 AI、数据科学、机器学习术语(第二部分)

所以不再赘述,以下是你需要了解的前 10 个术语,下周将公布第二批 10 个,总共 20 个术语,供 2020 年使用。

图

AutoML

自动化机器学习(AutoML)涵盖了一系列任务,这些任务可以合理地被认为包含在机器学习流程中。

一个 AutoML “解决方案”可能包括数据预处理、特征工程、算法选择、算法架构搜索和超参数调整等任务,或这些不同任务的某个子集或变体。因此,自动化机器学习现在可以被认为是从仅执行单一任务(如自动特征工程),一直到一个完全自动化的流程,包括数据预处理、特征工程、算法选择等。

换句话说——说实话,我最喜欢的方式——如果如 Sebastian Raschka 所描述的,计算机编程是关于自动化的,而机器学习是“全自动化自动化”,那么自动化机器学习就是“自动化自动化的自动化”。跟我来:编程通过管理机械任务来减轻我们的负担;机器学习使计算机能够学习如何最佳地执行这些机械任务;自动化机器学习使计算机能够学习如何优化学习执行这些机械任务的结果。

这是一个非常强大的概念;虽然我们以前必须担心调整参数和超参数,手动工程特征,执行算法选择等,但自动化机器学习系统可以通过多种不同的方法学习如何调整这些过程以实现最佳结果。

“常规”编程是数据和规则输入,答案输出;机器学习是数据和答案输入,规则输出;自动化机器学习涉及自动化优化一组约束条件,以“最佳”方式从数据和答案到规则,用任何你喜欢的度量来定义“最佳”。

贝叶斯

贝叶斯方法允许我们应用概率分布来建模现实世界,并在新的数据可用时更新我们的信念。多年来,统计学家通常依赖于频率学派方法。贝叶斯方法适用于对数据量较小、可能在频率学派眼中不重要的假设进行建模。

Brandon Rohrer 的解释是关于贝叶斯方法如何工作的一个很好的简单示例:

想象你正在看电影,旁边的观众掉了票。你想引起他们的注意。这是他们从后面看起来的样子。你无法确定他们的性别,只知道他们有长头发。你会喊“对不起,女士!”还是“对不起,先生!”根据你对你所在地区男性和女性发型的了解,你可能会假设这是一个女性。(在这种过度简化的情况下,只有两种发型长度和性别。)现在考虑一种情况的变体,这个人正在排队等候男厕。根据这条额外的信息,你可能会假设这是一个男性。这种常识和背景知识的使用是我们在不经意间做的。贝叶斯推断是一种将其转化为数学的方式,以便我们可以做出更准确的预测。 - Brandon Rohrer

BERT

BERT 代表双向编码器表示的变换器(Bidirectional Encoder Representations from Transformers),是一种自然语言处理的预训练技术。BERT 与其他语言表示的不同之处在于将双向训练应用于现有的 Transformer 注意力模型。BERT 在左右上下文中对未标记文本数据进行深度双向表示预训练,结果是一个可以通过仅添加一层进行微调的语言模型。BERT 在许多 NLP 任务中实现了最先进的性能,包括问答和推理。BERT 和 Transformer 都是由 Google 开发的。

从直观上讲,相较于从左到右(或从右到左)训练语言模型,双向训练可以获得对语言“理解”和词义的更好感知。双向性允许根据其周围环境的整体情况来学习词义,而不是仅基于从某一方向“读取”到特定词出现的点的内容来做出判断。因此,在不同上下文中具有不同含义的词可以被单独处理,从而更好地捕捉其上下文意义(例如,河流的“岸边”与存放钱的“银行”)。

实际上,BERT 可以用于从文本中提取特征,如词或句子嵌入,或者 BERT 模型可以在额外的数据上进行微调,以完成特定任务,如问答或文本分类。BERT 提供了几种不同大小的模型(参数数量),并且激发了 BERT 相关模型的额外系列,如 RoBERTa 和 DistilBERT。

要全面了解和实用的 BERT 教程,请参见 Chris McCormick 和 Nick Ryan 的精彩文章

CCPA

CCPA,即加利福尼亚消费者隐私法,于 2020 年 1 月 1 日生效,对收集个人数据的企业以及由此分析和处理这些数据的企业有重要影响。它的意图与 GDPR 类似,但为加利福尼亚消费者提供了更强的保护。CCPA 允许任何加利福尼亚消费者要求查看公司拥有的关于他们的信息,以及这些信息被共享的第三方的完整列表。加利福尼亚消费者还可以访问他们的个人数据,拒绝出售他们的个人数据,并要求公司删除公司所拥有的任何个人信息。

适用于任何收集消费者个人数据、在加利福尼亚州开展业务并符合以下至少一项条件的公司:

  • 年收入超过 2500 万美元;

  • 购买或出售 50,000 个或更多加利福尼亚消费者或家庭的个人信息。

  • 从出售加利福尼亚消费者个人信息中赚取超过 50%的年收入。

欲了解更多信息,请参阅维基百科上关于 CCPA 的条目

数据工程师

数据工程师负责优化和管理组织数据的存储和检索。数据工程师会制定如何最佳获取数据和创建存储数据库的路线图。他们通常会处理云服务,以优化数据存储并创建算法来解读数据。数据工程师的角色高度技术化,需要在 SQL、数据库设计和计算机科学方面的高级知识。

数据工程师在云端认证的趋势不断增加,以便在云环境中创建数据库并处理大型复杂数据集,以扩展和优化数据检索。

深度伪造

深度伪造是利用先进的深度学习和生成对抗网络 GANs 技术创建的虚假图像、视频或音频。这项技术非常先进,以至于结果非常逼真,且很难识别为假。这是一个使用奥巴马图像和声音的深度伪造示例:

深度伪造最初在色情内容中变得突出,热门名人的面孔被叠加到成人视频中,但最近,随着 FakeApp 等应用程序和更近期的开源替代品如 FaceSwap 和 DeepFaceLab,技术已经取得了进展。

以前,语音模仿需要几分钟的语音,但最近技术可以仅用几秒钟的语音生成令人信服的语音模仿。在 2019 年 9 月,一家公司的 CEO 的声音被骗子利用深度伪造技术模仿,从而欺骗公司支付了 24.3 万美元,成为首例此类网络犯罪。

深度伪造技术已经被用于政治虚假信息活动中,用于为机器人档案创建虚假图像,但可能在 2020 年被用来传播有关候选人的虚假语音和图像的虚假信息。

现在,深度伪造的创造者和试图识别它们的网络公司之间展开了军备竞赛。Facebook 和其他几家公司已经宣布了一项 1000 万美元的竞赛以开发识别深度伪造技术的技术。请继续关注,不要自动相信你在网上看到的所有内容——检查其来源。

模型部署/生产化

在这个机器学习、深度学习和人工智能的时代,最终目标是将其部署以交到最终消费者手中。通过网络部署模型有许多服务可用,例如 Heroku、AWS、Azure、GCP、Github 等。不同的提供商有不同的成本并提供略有不同的服务。部署和将模型投入生产将需要一定程度的前端和后端开发知识,以便能够在团队中工作。

由于云计算提供商可以轻松扩展到数百万用户并且能够监控扩展成本,现在许多模型都在使用云计算提供商进行部署。生产中的模型使组织能够从中获利,并为客户创造更大的价值。

图神经网络

数据科学家们正沉浸在数据中。大量数据。有些数据可能是原始的、无序的,像从火 hose 中喷射出来一样涌入。其他数据则可以是整齐有序的(或经过精心整理的),格式在可管理的维度内。对于这些“欧几里得”数据集,如文本、图像和视频,机器学习在文本生成、图像处理和面部识别应用中取得了很大成功。将深度学习模型与一两台 GPU 和大量训练数据相结合,发现数据中隐藏模式和有意义特征的可能性似乎是无限的。

那些更加相互关联的数据怎么办?数据可以通过依赖关系彼此连接。用户之间的互动可能会影响电子商务平台上的购买决策。药物发现中的化学反应通过复杂的反应互连图谱进行映射。社交网络通过不断变化、不规则和无序的关系形成并发展。人脑则由相互通信的细胞组成,这些细胞通过缠绕的意大利面般的结构连接在一起。

这些类型的数据关系可以建模为,数据点被表示为节点,关系通过互连的链接进行编码。传统的机器学习方法,包括深度学习,需要进一步泛化,以便在非欧几里得的图空间中进行计算。尽管早期已有一些相关工作,但图神经网络(GNN)的概念由Margo Gori 和团队在 2005 年定义,随后进行了更多研究,扩展到了递归和卷积神经网络的图版本。深度学习研究目前正积极致力于将图神经网络方法应用于数据即意大利面源,这也是 2020 年值得密切关注的研究领域。

MLOps 和 AIOps

随着 DevOps 在 IT 组织中成功融合了软件开发人员与 IT 服务交付的过程,这个术语已被提升为当代的流行词汇。在大多数流行词汇扎根后,新的背景或应用领域往往会迅速跟上这一热潮。

MLOps 这个术语用来代表最新的最佳实践,通过与数据科学家和 IT 专业人员的有效协作来开发和部署机器学习模型。在一个明确的开发生命周期中工作,对于许多数据科学家来说应该是非常受欢迎的,因为正式和自主学习的课程通常集中在人工智能和机器学习的基础上,对于生产部署的要求了解较少,不够熟悉。

将人工智能应用于组织运营的广泛领域是 AIOps,它汇集了所有机器学习技术,以从 IT 系统中提取有意义的见解。这种方法将人类的智能与 AI 算法的智能结合起来,以增强 IT 团队在做出更好、更快的决策、实时响应事件和开发优化的应用程序以促进更有效或自动化的业务流程方面的能力。根据Gartner 的预测,到 2023 年只有 30%的大型企业首席信息官将专门使用 AIOps 来改善运营,因此 AIOps 在 IT 组织中的演变还有很多值得关注的地方。

迁移学习

在训练机器学习模型时,可能会遇到以下两个问题。首先,通常没有足够的训练数据来充分训练一个模型。其次,即使(尤其是)当存在足够的训练数据时,训练过程往往仍然耗费资源和时间。

如果考虑到机器学习模型通常是在特定任务的特定数据上进行训练,并且结果模型是任务特定的,那么这些模型的最大潜力往往无法实现。一旦数据和计算被用于训练一个模型,为什么不在尽可能多的场景中使用这个模型呢?为什么不将所学到的知识转移到新的应用中呢?高度优化的训练模型难道不能进一步用于更多任务吗?

迁移学习涉及利用现有的机器学习模型用于模型最初未训练的场景。正如人类在面对新任务时不会丢弃以前学到的一切并重新开始一样,迁移学习允许机器学习模型将其在训练过程中获得的“知识”迁移到新任务中,从而扩展了计算和专业知识组合的应用范围,这些组合曾作为原始模型的燃料。简单来说,迁移学习可以节省训练时间并延伸现有机器学习模型的使用价值。对于从零开始训练模型所需的大量训练数据不可用的任务,它也是一种宝贵的技术。

考虑到时间和计算消耗,迁移学习使我们能够更好地最大化模型的使用价值。考虑到训练数据的不足,迁移学习允许我们利用在潜在大量数据上训练的预训练模型,并在较小的任务特定数据上进行调整。迁移学习是管理机器学习模型训练中两种不同潜在缺陷的有效方法,因此它越来越被广泛使用也就不足为奇了。

这个答案部分改编自我为书籍 用 Python 进行迁移学习 撰写的前言,出版商为 Packt Publishing。

相关

  • 2020 年必备的五项数据科学技能

  • 2020 年数据科学的五大趋势

  • 2020 年人工智能的五大趋势

进一步了解此主题