原文:
www.kdnuggets.com/2022/07/linear-regression-data-science.html
作者提供的图片
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您组织的 IT 需求
-
大多数有兴趣进入数据科学领域的初学者总是担心数学要求。
-
数据科学是一个非常量化的领域,需要高级数学知识。
-
但要开始,您只需掌握几个数学主题。
-
在这篇文章中,我们讨论了线性回归在数据科学和机器学习中的重要性。
回归模型是最受欢迎的机器学习模型。回归模型用于预测连续尺度上的目标变量。回归模型几乎在每个学科领域都有应用,因此,它是最广泛使用的机器学习模型之一。本文将讨论线性回归的基础知识,并面向数据科学领域的初学者。
在简单线性回归中,只有一个预测变量。由于我们的目标是预测船员变量,我们从图 1中看到,舱位变量与船员变量的相关性最高。因此,我们的简单回归模型可以表示为:
其中 m 是斜率或回归系数,c 是截距
假设目标变量现在依赖于几个预测变量(例如四个预测变量),那么可以使用多重回归分析来建模系统:
其中 X 是特征矩阵,w_0 是截距,w_1、w_2、w_3 和 w_4 是回归系数。
用于评估线性回归模型性能的最受欢迎的指标是 R2 分数指标,其计算方法如下:
R2 评分的取值范围在 0 和 1 之间。当 R2 接近 1 时,表示预测值与实际值非常接近。如果 R2 接近零,则表示模型的预测能力非常差。
还可以使用以下其他指标来评估线性回归模型:
MSE(均方误差):使用欧几里得距离计算误差。MSE 仅给出误差的大小。
MAE(均值绝对误差):使用曼哈顿距离计算误差。MAE(如同 MSE)仅给出误差的大小。
ME(均值误差):跟踪误差的符号,模型是过度预测(ME > 0)还是低估预测(ME < 0)?
-
R2 评分 是评估线性回归模型性能的非常流行的指标。
-
在比较两个或更多模型时,使用 MSE 或 MAE,MSE 或 MAE 的值越低,模型越好。
-
当你想了解你的模型是否在平均上过度预测(ME > 0)或低估预测(ME < 0)时,请使用 ME。也可以使用 R2 评分 来比较不同的模型。
在本案例研究中,我们使用 cruise_ship_info.csv 数据集构建了一个多元线性回归模型来预测船员数量。可以从这个 GitHub 仓库下载数据集和代码:github.com/bot13956/ML_Model_for_Predicting_Ships_Crew_Size
-
线性回归(用于连续目标变量预测)是最流行的机器学习模型。回归模型几乎在每个学科领域都有应用,因此它是最广泛使用的机器学习模型之一。
-
线性回归模型可以分为简单回归(单一特征)和多重回归(多个目标变量)模型。
-
线性回归模型可以使用如 Pylab、Numpy 或 scikit-learn 等软件库来实现。
-
评估回归模型时可以使用多种指标,如 MSE、ME、MAE 和 R2 评分。R2 评分仍然是最受欢迎的指标。
本杰明·O·泰约 是一位物理学家、数据科学教育者和作家,也是 DataScienceHub 的所有者。此前,本杰明曾在中央俄克拉荷马大学、大峡谷大学和匹兹堡州立大学教授工程和物理学。