Skip to content

Latest commit

 

History

History
49 lines (25 loc) · 5.25 KB

learn-data-cleaning-preprocessing-data-science-free-ebook.md

File metadata and controls

49 lines (25 loc) · 5.25 KB

通过这本免费电子书学习数据清理和预处理

原文:www.kdnuggets.com/2023/08/learn-data-cleaning-preprocessing-data-science-free-ebook.html

通过这本免费电子书学习数据清理和预处理

Data Science Horizons 最近发布了一本有见地的新电子书,标题为**数据科学初学者的数据清理和预处理**,为数据科学流程的关键早期阶段提供了全面的介绍。在本指南中,读者将了解为什么正确清理和预处理数据对于构建有效的预测模型和从分析中得出可靠结论如此重要。电子书涵盖了数据收集、清理、集成、转换和减少以准备分析的一般工作流程。它还探讨了数据清理和预处理的迭代特性,使这一过程既是一门艺术,也是一门科学。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作


为什么需要这样的书?

本质上,数据是杂乱的。现实世界中的数据,即公司和组织每天收集的数据,充满了不准确、不一致和缺失的条目。正如谚语所说,“垃圾进,垃圾出。”如果我们用肮脏、不准确的数据来喂养我们的预测模型,我们的模型性能和准确性将会受到影响。

这本电子书的一个主要亮点是对用于数据处理、可视化、机器学习和处理缺失值的关键 Python 库的实际演示。读者将熟悉 Pandas、NumPy、Matplotlib、Seaborn、Scikit-learn 和 Missingno 等必备工具。本指南最后通过一个案例研究,使读者能够应用前面章节中涵盖的所有概念和技能。

数据清洗与预处理提供了处理常见数据质量问题的全面指南。它探讨了处理缺失值、检测异常值、数据标准化与缩放、特征选择、变量编码和均衡不平衡数据集的技术。读者将学习评估数据完整性的最佳实践、合并数据集、处理偏斜分布和非线性关系。通过 Python 代码示例,读者将获得实际经验,识别数据异常、填补缺失数据、提取特征,并将混乱的数据集预处理成可分析的形式。案例研究将所有主要概念结合成一个端到端的数据清洗与预处理工作流。

数据科学家工具包的核心是识别常见数据质量问题的能力。

数据清洗与预处理入门指南是任何渴望进入数据科学领域但仍需要掌握处理现实世界数据的人的绝佳起点。此指南真正带你深入了解如何将原始数据处理到最佳状态,以便你能实际使用它。到达最后,你将掌握清洗和预处理数据的所有技巧,使之变得得心应手。不再因数据中的错误而陷入困境!凭借这本电子书赋予你的技能,你将能将最棘手的数据集驯服并像专家一样提取有意义的见解。

无论你是新手还是想提升技能,数据清洗与预处理入门指南都是你数据科学书单中不可或缺的一部分。

Matthew Mayo (@mattmayo13) 是数据科学家和 KDnuggets 的主编,KDnuggets 是数据科学和机器学习的开创性在线资源。他的兴趣包括自然语言处理、算法设计与优化、无监督学习、神经网络以及机器学习的自动化方法。Matthew 拥有计算机科学硕士学位和数据挖掘研究生文凭。你可以通过 editor1 at kdnuggets[dot]com 与他联系。

更多相关内容