原文:
www.kdnuggets.com/statistics-in-data-science-theory-and-overview
作者插图 | 来源:Flaticon.
你是否有兴趣掌握统计学,以在数据科学面试中脱颖而出?如果是,你不应该仅仅为了面试而学习。理解统计学可以帮助你从数据中获得更深入、更细致的见解。
1. Google 网络安全证书 - 快速开启网络安全职业之路。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT 需求
在这篇文章中,我将展示提高数据科学问题解决能力所需了解的最关键的统计学概念。
当你想到统计学时,你的第一反应是什么?你可能会想到以数字方式表达的信息,例如频率、百分比和平均值。仅从电视新闻和报纸上,你就能看到全球的通货膨胀数据、你所在国家的就业和失业人数、街头的死亡事件数据以及调查中每个政党的投票百分比。所有这些例子都是统计学的应用。
这些统计数据的生产是一个名为统计学的学科的最明显应用。统计学是一门研究收集、解释和呈现实证数据的方法的科学。此外,你可以将统计学领域分为两个不同的部门:描述性统计学和推断统计学。
年度人口普查、频率分布、图表和数值总结是描述性统计学的一部分。推断统计学指的是一套方法,允许根据人口的一部分(称为样本)来概括结果。
在数据科学项目中,我们大多数时间都在处理样本。因此,我们用机器学习模型获得的结果是近似的。一个模型可能在特定样本上表现良好,但这并不意味着它在新的样本上也会表现良好。一切都依赖于我们的训练样本,它需要具有代表性,以便能够很好地概括总体的特征。
在数据科学项目中,探索性数据分析是最重要的步骤,它使我们能够通过汇总统计和图形表示对数据进行初步调查。它还允许我们发现模式、识别异常和检查假设。此外,它有助于发现数据中可能存在的错误。
在探索性数据分析中,关注的中心是变量,这些变量可以分为两种类型:
-
如果变量在数值尺度上测量,则为数值型。它可以进一步分类为离散型和连续型。当变量具有明显的量化特征时,它是离散的。离散变量的例子有学位等级和家庭人数。当我们处理连续变量时,可能的值集位于有限或无限区间内,例如身高、体重和年龄。
-
如果变量通常由两个或更多类别组成,则为分类变量,例如职业状态(已就业、失业和求职者)和工作类型。与数值变量一样,分类变量也可以分为两种不同类型:序数型和名义型。当类别之间有自然顺序时,变量为序数型。例如,薪资可以分为低、中和高等级。当分类变量没有任何顺序时,它是名义型。名义型变量的一个简单例子是性别,包括女性和男性。
分布形状。作者插图。
要了解数值特征,我们通常使用 df.describe() 来概览每个变量的统计数据。输出包括计数、平均值、标准差、最小值、最大值、中位数、第一四分位数和第三四分位数。
所有这些信息也可以通过图形表示来查看,称为箱线图。箱体中的线是中位数,而下边缘和上边缘分别对应于第一四分位数和第三四分位数。除了箱体提供的信息外,还有两条线,也称为须状线,代表分布的两个尾部。所有在须状线边界之外的数据点都是异常值。
从这个图中,还可以观察到分布是否对称或不对称:
-
如果分布呈钟形,中位数大致与均值重合且须状线长度相同,则分布为对称。
-
如果中位数接近第三四分位数,则分布右偏(正偏)。
-
如果中位数接近第一四分位数,则分布左偏(负偏)。
分布的其他重要方面可以通过直方图可视化,该直方图统计每个区间中的数据点数量。可以注意到四种类型的形状:
-
一个峰值/模式
-
两个峰值/模式
-
三个或更多的峰/众数
-
均匀且没有明显的众数
当变量是类别型时,最好的方法是观察每个特征因子的频率表。为了更直观的可视化,我们可以使用条形图,根据变量的不同选择垂直或水平条形。
散点图展示了 x 和 y 之间的正线性关系。插图由作者提供。
我们之前列出了理解单变量分布的方法。现在,是时候研究变量之间的关系了。为此,通常计算皮尔逊相关系数,它是两个变量之间线性关系的度量。这个相关系数的范围在-1 和 1 之间。相关值越接近这两个极端中的一个,关系越强。如果接近 0,则两个变量之间的关系较弱。
除了相关性,还有散点图用于可视化两个变量之间的关系。在这种图形表示中,每个点对应于一个特定的观察值。当数据的变异性很大时,通常不太有用。为了从这对变量中捕获更多信息,可以添加平滑线和转换数据。
对概率分布的了解可以在处理数据时产生差异。
这些是数据科学中最常用的概率分布:
-
正态分布
-
卡方分布
-
均匀分布
-
泊松分布
-
指数分布
正态分布示例。插图由作者提供。
正态分布,也称为高斯分布,是统计学中最常见的分布。它的特点是钟形曲线,中间高,两端尾部。它是对称的且单峰的。此外,正态分布有两个关键参数:均值和标准差。均值与峰值重合,而曲线的宽度由标准差表示。有一种特殊的正态分布,称为标准正态分布,其均值为 0,方差为 1。它是通过从原始值中减去均值,然后除以标准差得到的。
学生 t 分布示例。插图由作者提供。
它也被称为具有 v 自由度的 t 分布。与标准正态分布一样,它是单峰的且围绕零对称。它与高斯分布略有不同,因为它在中间的质量较少,而尾部的质量较多。当样本量较小时,会考虑使用它。样本量增加得越多,t 分布将越趋近于正态分布。
卡方分布的示例。作者插图。
这是伽玛分布的一个特例,以其在假设检验和置信区间中的应用而著名。如果我们有一组正态分布且独立的随机变量,我们计算每个随机变量的平方值并求和,最终的随机值遵循卡方分布。
均匀分布的示例。作者插图。
这是另一种在数据科学项目中你肯定会遇到的流行分布。其核心思想是所有结果发生的概率相等。一个流行的例子是掷一个六面骰子。正如你所知,骰子的每一面发生的概率是相等的,因此结果遵循均匀分布。
泊松分布的示例。作者插图。
它用于建模在特定时间间隔内随机发生多次的事件的数量。遵循泊松分布的例子包括社区中年龄超过 100 岁的人数、系统每天的故障次数、特定时间段内到达求助热线的电话数量。
指数分布的示例。作者插图。
它用于建模在特定时间间隔内随机发生多次的事件之间的时间量。例子包括在求助热线等待的时间、直到下一次地震的时间、癌症患者剩余的生命年限。
假设检验是一种统计方法,它允许根据样本数据对总体提出和评估假设。因此,它是一种推断统计方法。该过程始于对总体参数的假设,也称为原假设,需要进行检验,而备择假设(H1)则表示相反的陈述。如果数据与我们假设的差异很大,则拒绝原假设(H0),结果被称为“统计显著”。
一旦确定了两个假设,就需要遵循其他步骤:
-
设置显著性水平,这是用于拒绝零假设的标准。典型值为 0.05 和 0.01。这个参数? 决定了针对零假设的经验证据有多强,直到零假设被拒绝。
-
计算统计量,这是从样本中计算出的数值量。它帮助我们确定一个决策规则,以尽可能减少错误的风险。
-
计算p 值,这是获得与零假设中指定参数不同的统计量的概率。如果 p 值小于或等于显著性水平(例如:0.05),我们拒绝零假设。如果 p 值大于显著性水平,我们不能拒绝零假设。
存在各种各样的假设检验。假设我们正在进行一个数据科学项目,想要使用线性回归模型,这种模型以强假设的正态性、独立性和线性著称。在应用统计模型之前,我们更愿意检查一个特征的正态性,该特征涉及糖尿病成年女性的体重。Shapiro-Wilk 检验可以来救急。还有一个名为 Scipy 的 Python 库,包含了这个检验的实现,其中零假设是该变量服从正态分布。如果 p 值小于或等于显著性水平(例如:0.05),我们拒绝零假设。如果 p 值大于显著性水平,我们可以接受零假设,这意味着该变量具有正态分布。
希望你觉得这个介绍有用。我认为掌握统计学是可能的,只要理论后面有实际的例子。这里肯定还有其他重要的统计学概念我没有覆盖,但我更愿意专注于在我的数据科学家经验中发现有用的概念。你知道其他对你工作有帮助的统计方法吗?如果你有有见地的建议,请在评论中告诉我。
资源:
Eugenia Anello 目前是意大利帕多瓦大学信息工程系的研究员。她的研究项目集中在持续学习与异常检测的结合上。