相关性简介

原文：www.kdnuggets.com/2017/02/datascience-introduction-correlation.html

介绍：什么是相关性，为什么它有用？

相关性是最广泛使用——也最被误解——的统计概念之一。在本概述中，我们提供了几种类型的相关性的定义和直觉，并展示了如何使用 Python pandas 库计算相关性。

我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

“相关性”一词指的是数量之间的相互关系或关联。在几乎任何业务中，以其与其他因素的关系来表达某一数量是有用的。例如，当营销部门增加电视广告支出时，销售可能会增加，或者客户在电子商务网站上的平均购买金额可能取决于与该客户相关的多个因素。通常，相关性是理解这些关系的第一步，随后可以建立更好的业务和统计模型。

那么，为什么相关性是一个有用的指标？

相关性可以帮助从一个数量预测另一个数量
相关性可以（但通常不会，如下面的一些例子所示）指示因果关系的存在
相关性作为许多其他建模技术的基本量和基础

更正式地说，相关性是描述随机变量之间关联的统计度量。计算相关系数的方法有多种，每种方法测量不同类型的关联强度。下面我们总结了三种最常用的方法。

Pearson 相关系数

Pearson 是最广泛使用的相关系数。Pearson 相关性测量连续变量之间的线性关联。换句话说，这个系数量化了两个变量之间的关系可以用一条线来描述的程度。值得注意的是，虽然相关性可以有多种解释，但 Karl Pearson 在 120 多年前开发的相同公式今天仍然是最广泛使用的。

在这一部分，我们将介绍几种流行的皮尔逊相关系数的表述及其直观解释（简称ρ）。

皮尔逊本人开发的相关系数原始公式使用了原始数据和两个变量X和Y的均值：

$\rho_{X,Y} = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum(X_i - \bar{X})² \sum(Y_i -\bar{Y})²} }$

在这种表述中，原始观察数据通过减去其均值进行中心化，并通过标准差的度量进行重新缩放。

表达相同数量的另一种方式是使用期望值、均值μ[X]、μ[Y]和标准差σ*[X]、σ*[Y]：

$\rho_{X,Y} = \frac{E[(X-\mu_{X})(Y-\mu_{Y})] }{\sigma_{X}\sigma_{Y}}$

请注意，这个分数的分子与上述协方差的定义相同，因为均值和期望可以互换使用。将两个变量之间的协方差除以标准差的乘积，确保了相关系数总是落在-1 和 1 之间。这使得解释相关系数变得更加容易。

下图显示了皮尔逊相关系数的三个例子。ρ 越接近 1，表示一个变量的增加与另一个变量的增加关联越大。另一方面，ρ 越接近-1，表示一个变量的增加会导致另一个变量的减少。请注意，如果X和Y是独立的，则ρ接近 0，但反之则不成立！换句话说，即使两个变量之间存在强关系，皮尔逊相关系数也可能很小。我们将很快看到这种情况如何发生。

那么，我们如何解释皮尔逊相关系数呢？

在 DataScience.com 上阅读其余内容：相关性介绍

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

datascience-introduction-correlation.md

datascience-introduction-correlation.md

相关性简介

介绍：什么是相关性，为什么它有用？

我们的三大课程推荐

相关性的类型

Pearson 相关系数

更多相关主题

Files

datascience-introduction-correlation.md

Latest commit

History

datascience-introduction-correlation.md

File metadata and controls

相关性简介

介绍：什么是相关性，为什么它有用？

我们的三大课程推荐

相关性的类型

Pearson 相关系数

更多相关主题