Skip to content

Latest commit

 

History

History
357 lines (179 loc) · 15.9 KB

data-science-statistics-machine-learning-dictionary.md

File metadata and controls

357 lines (179 loc) · 15.9 KB

数据科学、统计学和机器学习词典

原文:www.kdnuggets.com/2022/05/data-science-statistics-machine-learning-dictionary.html

数据科学、统计学和机器学习词典

Pisit Heng 通过 Unsplash

作为一名新的数据科学家,理解办公室技术术语和行话可能会很困难。本文将为你提供在数据科学之旅中最常用的术语。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 在 IT 领域支持你的组织


A

算法 - 一组用于解决特定任务的可重复指令。

AngularJS - 一个开源 JavaScript 库,允许开发者创建单页应用程序。由 Google 和 AngularJS 社区管理。

Anaconda - 是一个开源数据科学发行版,简化了包和部署。主要用于 Python 和 R 编程语言的用户。

Apache Spark - 一个开源计算框架和库集,用于实时的大规模数据处理。

人工智能 - 是计算机或计算机控制的机器人执行通常由人类完成的任务的能力,因为这些任务需要人类智能。

B

反向传播(Backpropagation) - 有时缩写为“backprop”。它是告诉神经网络在预测时是否出错的信使,通过反复调整权重来实现。

集成学习(Bagging) - 也称为自助法,是一种通过使用从数据子集创建的多个模型的预测组合来进行预测的技术。

贝叶斯定理 - 一种用于确定条件概率的数学公式。

贝叶斯网络 - 一种概率图模型,旨在建立一个保持已知条件依赖关系和在其他所有情况下的条件独立性的模型。

偏差 - 是由于机器学习过程中不正确的假设而产生的系统性误差。

大数据 - 是由于其巨大的多样性、不断增长的体量和速度而变得非常不切实际的数据。

二元变量 - 在变量的上下文中,这些变量只有两个唯一值,如“是”和“否”

二项分布 - 是一种用于计算具有固定试验次数的实验概率的方法。

提升 - 是一个顺序过程,其中模型通过从前一个模型中学习来纠正错误。

C

分类变量 - 具有离散定性值的变量,如种族或宗教。

卡方检验 - 一种统计方法,用于测试和比较观察结果与预期结果。

分类 - 是通过识别对象属于哪个类别来预测标签的过程。

聚类 - 一种无监督算法过程,用于将数据点划分为特定的组。

计算机视觉 - 一种 AI 形式,使计算机能够以类似于人类视觉的方式可视化、处理和识别图像/视频。

置信区间 - 一种统计方法,用于基于样本结果估计一个特定类别的总体百分比。

混淆矩阵 - 用于描述分类模型性能的表格。

连续变量 - 是具有无限个值的变量,如速度和距离。

凸函数 - 如果图上的任何两点之间的线段位于图形上方或图形上。

相关性 - 是两个或多个变量之间协方差/关系的比率。

成本函数 - 一种统计方法,用于定义和测量模型的错误。

协方差 - 用于测量两个随机变量之间关系的量度。

交叉熵 - 用于测量一组事件的两个概率分布之间的差异。

交叉验证 - 一种统计技术,通过将数据分为两个部分来评估和比较机器学习算法。

D

数据工程师 - 负责设置和维护组织数据基础设施的数据专业人员。

数据挖掘 - 从结构化和非结构化数据中提取有用信息的过程。

数据科学 - 为分析过程准备数据,包括清洗、操作、算法开发等,以执行高级数据分析。

仪表板 - 用于跟踪、分析和显示信息管理工具。

性能。构建仪表板的最常用工具包括 Excel 和 Tableau。

数据库 - 是一个有结构的数据集合,以可访问的方式组织。常见的数据库语言是 SQL。

数据增强 - 一种通过对现有数据进行轻微调整来增加数据量的技术。

决策树 - 一种非参数监督学习方法,用于分类和回归,旨在通过学习从数据特征中推导出的简单决策规则来构建预测目标变量值的模型。

深度学习 - 一种机器学习方法,教计算机做自然流露的事情。它训练算法在给定一组输入的情况下预测输出。

因变量 - 被测量并受到自变量影响的变量。

降维 - 减少训练数据中输入变量数量的过程。

E

提前停止 - 一种避免过拟合的技术,用于训练机器学习模型时采用迭代方法。

探索性数据分析 - 是数据初步调查中的关键过程,通过可视化或统计分析提供更多见解。

ETL - 是提取、转换和加载的流行缩写。ETL 系统从源系统中提取数据,确保其质量并呈现数据。

评估指标 - 用于衡量机器学习模型质量的指标,如 AUC。

F

假阴性 - 真实的预测被错误地预测为假。

假阳性 - 错误的预测被错误地预测为真实。

特征减少 - 是减少特征数量的过程,以提高计算密集型任务的效率而不丢失信息。

特征选择 - 是通过选择相关特征来减少输入变量数量的过程,以用于模型中。

F-得分 - 是衡量模型在数据集上准确度的指标。

G

GPU - 代表图形处理单元,是一种专门的处理器,可处理用于机器学习、视频编辑和游戏应用的数据块。

梯度提升 - 是依赖于使用之前的模型来改进下一个模型,并最小化整体预测误差的过程。

梯度下降 - 是一种优化算法,帮助找到给定函数的局部最小值/最大值。

H

Hadoop - 一个开源框架,用于高效存储和处理大数据集。

层次聚类 - 一种将相似数据点分组为称为簇的算法。

直方图 - 组织一组数据点在连续变量中的图形表示。

留出样本 - 从数据集中随机抽取的样本,未用于模型拟合过程。

超参数调整 - 发现机器学习算法的最佳超参数的过程。

I

自变量 - 可以操作或对因变量产生直接影响的变量。

迭代 - 重复特定数量次的语句/代码块的过程,依次生成输出。

J

JavaScript - 一种脚本语言,用于创建交互式网页内容,如应用程序和浏览器。

Jupyter Notebook - 一个基于网页的交互式计算平台,用于创建和分享计算文档。

K

K 均值 - 一种无监督学习算法,通过距离将数据点分组到最近的质心。

Keras - 由 Google 开发的开源软件库,用于实现神经网络。

K-近邻 (KNN) - 一种监督学习算法,用于回归和分类任务。它通过计算当前训练数据点之间的距离来对测试数据集进行预测。

Kubernetes - 一个开源平台,用于自动化应用程序的部署、扩展和管理。

L

标记数据集 - 具有“标签”、“类别”或“标记”的数据。

套索回归 - 通过收缩或正则化来避免过拟合,以最小化预测误差的过程。

线性回归 - 用于对连续因变量进行预测,利用自变量进行预测。

逻辑回归 - 用于预测分类因变量,使用自变量对输出进行分类,输出只能在 0 和 1 之间。

对数损失 - 测量分类模型的性能,其中输出是介于 0 和 1 之间的概率值。

长短期记忆网络 - 一种能够学习和记忆长期依赖关系的递归神经网络。LSTM 旨在长时间记住过去的信息。

M

机器学习 - 是一种模型利用历史数据作为输入预测新输出值的过程,用于识别和学习数据分析中的模式。

机器学习操作 (MLOps) - 机器学习工程的核心功能,专注于将机器学习模型投入生产,并随后维护和监控它们的过程。

管理信息系统 (MIS) - 由硬件和软件组成的计算机系统,作为组织运营的支柱。

最大似然估计 - 一种概率框架,用于获得更稳健的参数估计。

均值 - 是所有数字的平均值。

均绝对误差 - 也称为 L1 正则化,计算标签数据和预测数据之间误差平方的均值。

均方误差损失 - 也称为 L2 正则化,告诉你回归线与数据点集的接近程度。

中位数 - 是从小到大排序的列表中的中间值。

众数 - 数据集中出现频率最高的值。

模型选择 - 从已知模型集中选择统计模型的过程。

蒙特卡洛方法 - 一种数学技术,用于估计不确定事件的可能结果。

多类分类 - 具有多个目标变量类别的分类问题。

多层感知器 - 是一种前馈人工神经网络,其中一组输入被送入神经网络以生成一组输出。

多变量分析 - 比较和分析多个变量之间相互依赖性的过程。

N

朴素贝叶斯 - 使用假设数据点属性之间独立的分类器的过程,基于贝叶斯定理。

NaN - 代表“not a number”,指的是未定义或未表示的数值数据类型。在数据集中,这将被视为缺失或不正确表示。

自然语言处理 - 计算机能够检测和理解人类语言的能力,通过语音和文本与我们人类一样。

神经网络 - 由神经元组成的网络,包含三种不同的层:输入层、一个或多个隐藏层,以及输出层。

NoSQL - 代表“Not only SQL”,是一种提供数据存储和检索的数据库。

名义变量 - 一种用于命名、标记或分类被测量特定属性的变量类型。

正态分布 - 是一种概率分布函数,表示在钟形图中随机变量的分布。

归一化 - 一种将数据缩放到[0, 1]范围内的技术。

NumPy - 一个用于 Python 的库,提供多维数组对象处理、线性代数和矩阵计算函数的数学功能。

O

独热编码 - 一种将分类变量转换为机器学习和深度学习算法可用的形式的过程,以提高模型的预测和准确性。

序数变量 - 是具有某种排序形式的离散值的变量。

异常值 - 是在样本中远离整体模式的观测值。

过拟合 - 指统计模型完全适应其训练数据。当函数过于精确地拟合有限的数据点集时,发生建模错误。

P

Pandas - 一个用于数据处理和分析的开源 Python 库。

参数 - 是定义系统的一组可测量因素,并且是从过去的训练数据中学习到的模型部分。

精确度 - 是模型对实际正例的总数以及正预测的质量的衡量。

预测建模 - 通过分析给定输入数据集中的模式,使用数学方法预测未来事件或结果的过程。

预测变量 - 用于对因变量进行预测的变量。

预训练模型 - 是由其他人创建的模型,能够解决类似的问题,而不是从头开始构建模型。

主成分分析 - 一种用于通过提高模型可解释性来减少数据集维度的技术,而不降低信息损失。

概率分布 - 是描述所有可能值及其发生的统计函数。

P 值 - 是样本数据结果由偶然发生的概率,因此较低的 P 值是好的。

R

R - 一种开源编程语言,也是一个用于统计计算、机器学习和数据可视化的软件环境。

随机森林 - 由许多决策树组成的一种集成学习方法,用于分类、回归和其他任务,包含多个决策树。

回归 - 一种用于研究自变量或特征与因变量或结果之间关系的技术。

正则化 - 用于解决统计模型中过拟合问题的一种技术。

强化学习 - 目的是训练模型,通过一系列为特定问题创建的解决方案和/或决策来返回最优解。

Ruby - 一种开源编程语言,主要用于构建网络应用程序。

S

Scikit-learn - 一个为 Python 用户提供的库,包含机器学习和统计建模的工具,如分类、回归、聚类和降维

SQL - 代表结构化查询语言,用于通过执行如更新数据、检索数据等任务来管理数据库。

标准差 - 告诉你数据围绕均值的变动情况

标准误差 - 告诉你计算出的不同均值的变动情况

随机梯度下降 - 旨在通过逐步调整网络的权重来最小化成本函数。

监督学习 - 一种算法在标记数据集上进行学习并分析训练数据的学习类型

支持向量机 - 一种监督学习模型,通过创建一个线性或超平面将数据分成不同的类别

T

T 分布 - 一种描述样本均值与总体均值之间标准化距离的概率分布,类似于正态分布。

T 值 - 组间和组内的方差,其中较大的 T 值意味着组间差异较大,而较小的 T 值则意味着组间差异较小。

TensorFlow - 是一个开源库,用于深度学习应用,使得通过数据流图构建具有多层的大规模神经网络模型变得简单。

分词 - 将文本字符串分割成称为标记的单元的过程,是自然语言处理的一部分。

迁移学习 - 一种机器学习方法,其中从一个任务中获得的知识可以作为另一个任务的基础点进行重用。

真阳性 - 你预测为正且实际为正

真阴性 - 你预测为负且实际为负

T 检验 - 一种用于通过找出两个总体均值的差异来比较两个总体的检验。

第一类错误 - 决定拒绝原假设,但可能是错误的。

第二类错误 - 决定保留原假设,但可能是错误的。

U

欠拟合 - 一种建模错误,无法对训练数据建模或对新数据进行泛化,在训练集上表现不佳。

无监督学习 - 模型在未标记的数据上进行学习,推断出更多隐藏结构,以产生准确可靠的输出。

V

方差 - 用于测量一组数字的分布。

向量 - 用于以数学和易于分析的形式表示被称为特征的数值特征。

X

XGBoost - 一个开源库,提供了一个正则化的梯度提升框架,支持 C++、Java、Python、R 等编程语言。

Z

Z 检验 - 一种统计检验方法,用于计算两个总体均值是否存在差异。

结论

这些并不是所有的术语,但这些是最流行的术语。如果有遗漏的,请随时在评论中补充。希望这些对你有帮助!

尼莎·阿里亚 是一名数据科学家和自由职业技术作家。她特别关注提供数据科学职业建议或教程以及数据科学相关的理论知识。她还希望探索人工智能如何及能够如何促进人类寿命的延续。她是一个热衷学习者,寻求拓宽自己的技术知识和写作技能,同时帮助指导他人。

更多相关主题