Skip to content

Latest commit

 

History

History
113 lines (57 loc) · 8.04 KB

10-github-repositories-to-master-data-science.md

File metadata and controls

113 lines (57 loc) · 8.04 KB

10 个 GitHub 仓库来掌握数据科学

原文:www.kdnuggets.com/10-github-repositories-to-master-data-science

10 个 GitHub 仓库来掌握数据科学

图像由 ChatGPT 生成

通过课程或 YouTube 视频学习数据科学可能会变得单调,因为这通常涉及被动地接受信息。你没有动手操作、进行实验或实际构建任何东西。你只是从屏幕上吸收内容。但是,如果我告诉你有一种更具互动性和有效的方法来掌握数据科学工具和概念,你会不会感兴趣?没错。今天,我们将探索 10 个 GitHub 仓库,它们将通过互动课程、书籍、指南、代码示例、项目、基于顶级大学课程的免费课程、面试问题和最佳实践,帮助你掌握数据科学概念。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你所在组织的 IT 工作


1. Virgilio:你的数据科学导师

仓库: virgili0/Virgilio

Virgilio 是一个全面的数据科学电子学习指南和导师。它提供了结构化的内容、教程和资源,帮助你在数据科学的广阔领域中导航,是初学者的绝佳起点。

它提供了一个互动网站,将教授你统计学和 Python 的基础知识。它将帮助你学习数据科学项目中的各个步骤。你将学习机器学习模型、数据处理和可视化技术、自动化等。

2. Python 数据科学手册

仓库: jakevdp/PythonDataScienceHandbook

这个仓库包含了《Python 数据科学手册》的完整文本,以 Jupyter Notebooks 的形式提供。你可以免费阅读这本书,甚至可以在 Google Colab 上运行笔记本,实时体验各种数据科学任务。它涵盖了 Python 中的重要数据科学库,如 NumPy、pandas、Matplotlib、Scikit-Learn 等。它是一个很好的起点。

3. 数据科学入门

仓库: microsoft/Data-Science-For-Beginners

这个微软的仓库提供了一个为期 10 周、包含 20 节课的课程,专为初学者设计。它提供了全面的课程和动手项目,以建立扎实的数据科学概念和技术基础。

每一节课包括一个草图笔记、补充视频、课前热身测验、书面课程、指南、知识检查、挑战、补充阅读、作业和课后测验。

4. 数据科学 IPython 笔记本

仓库: donnemartin/data-science-ipython-notebooks

这个仓库包括一系列 Jupyter 笔记本,涵盖了各种数据科学主题,包括深度学习、机器学习、数据分析和 Python 基础知识。它是一个宝贵的实践学习资源。内容根据工具如 scikit-learn、scipy、pandas、matplotlib、numpy、python-data、spark 等进行分类。

5. 应用机器学习

仓库: eugeneyan/applied-ml

这个仓库专注于应用机器学习,提供公司分享的真实数据科学和机器学习工作的论文和技术博客。它是学习如何在生产环境中实现机器学习的优秀资源。

课程列表根据主题进行分类,如数据质量、数据工程、特征存储、分类、回归、预测、推荐、搜索与排序等。它主要关注机器学习以及如何实施机器学习项目。

6. 免费自学数据科学的路径

仓库: ossu/data-science

这个仓库提供了一个全面的自学数据科学课程。它包括免费的课程、教科书和资源的链接,涵盖了从基础数学到高级机器学习的所有内容。

你应该阅读我的博客,免费报名数据科学本科课程,该博客涵盖了课程的各个方面,并解释了如何报名并开始学习。

7. 开源数据科学硕士

仓库: datasciencemasters/go

这个仓库提供了一个全面的开源课程,旨在为学生准备入门级的数据科学家角色。其目标是提供高质量的、免费的教育资源,与最著名的付费课程的材料相媲美。通过利用开源材料,这个课程确保初学者可以在没有经济障碍的情况下获得最好的学习资源。

8. 极好的数据科学

仓库: academic/awesome-datascience

该仓库是一个精心策划的优秀数据科学资源列表,包括教程、书籍、软件和工具。它是任何希望学习并将数据科学应用于实际问题的人的首选参考。除了资源列表外,它还解释了如何开始数据科学职业生涯。我建议你将其收藏,以便在发现新工具或学习新概念时使用。它由开源社区维护,确保你获取最新的、最前沿的信息。

9. 数据科学面试问题与答案

Repository: alexeygrigorev/data-science-interviews

准备数据科学职位面试吗?该仓库提供了一系列数据科学面试问题及其答案。这是了解可能遇到的问答类型并准备回答的绝佳资源。

该仓库分为两个部分:理论和技术问题。总体而言,它涵盖了关于 SQL、Python、分类、正则化、特征选择、决策树等的问答。

10. Cookiecutter 数据科学

Repository: drivendataorg/cookiecutter-data-science

该仓库提供了一个标准化的数据科学项目结构。它有助于确保你的项目有条理、可重复和可共享,并遵循数据科学工作的最佳实践。

拥有一个结构良好的数据科学项目模板可以显著减轻与协作和可重复性相关的许多挑战。它不仅通过提供一致的框架来简化团队合作,还增强了你修复错误和解决问题的能力。

最终想法

无论你是希望打下坚实基础的初学者,还是寻求扩展知识的经验丰富的从业者,这些 10 个仓库都提供了有价值的内容,以提升你在数据科学领域的技能和专业知识。它们包括教程、互动书籍、课程、项目代码示例、免费资源、研究论文、项目模板、大学课程等。只需将其收藏,以便在学习新工具或概念时使用。

Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品,帮助那些在精神健康方面挣扎的学生。

更多相关信息