原文:
www.kdnuggets.com/2022/05/9-free-harvard-courses-learn-data-science-2022.html
图片由Danilo Rios拍摄,来源于Unsplash
上个月,我写了一篇关于如何利用MIT 提供的免费课程构建数据科学学习路线图的文章。
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯的快车道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT
然而,我列出的多数课程的重点是高度理论化的,且对学习机器学习算法背后的数学和统计学有很多强调。
尽管 MIT 的路线图将帮助你理解预测建模背后的原理,但缺乏的则是实际应用所学概念并执行真实数据科学项目的能力。
在网上花了一些时间后,我发现了一些哈佛提供的免费课程,涵盖了整个数据科学工作流程——从编程到数据分析、统计学和机器学习。
一旦你完成了这个学习路径中的所有课程,你还会获得一个综合项目,允许你将所学知识付诸实践。
在这篇文章中,我将列出 9 门你可以学习数据科学的免费哈佛课程。如果你已经掌握了某个主题,可以随意跳过相关课程。
学习数据科学的第一步是学习编程。你可以选择用你喜欢的编程语言来做这件事——理想情况下是 Python 或 R。
如果你想学习 R 语言,哈佛提供了一门专为数据科学学习者设计的入门 R 课程,叫做数据科学:R 基础。
这个程序将带你了解 R 语言的概念,如变量、数据类型、向量运算和索引。你还将学习使用像 dplyr 这样的库来处理数据,并创建图表来可视化数据。
如果你更喜欢 Python,你可以选择参加由哈佛免费提供的 CS50 Python 编程入门 课程。在这门课程中,你将学习函数、参数、变量、数据类型、条件语句、循环、对象、方法等概念。
上述两个课程都是自定进度的。然而,Python 课程比 R 程序更详细,需要更长的时间来完成。此外,这个路线图中的其他课程都使用 R 教授,因此学习 R 可能会更有价值,以便能更轻松地跟上课程进度。
可视化是将数据发现传达给他人的最强大技术之一。
通过 哈佛的数据可视化 课程,你将学习使用 R 中的 ggplot2 库构建可视化图表,并掌握传达数据驱动见解的原则。
在 这门课程 中,你将学习进行数据统计测试所需的基本概率概念。所讲解的主题包括随机变量、独立性、蒙特卡罗模拟、期望值、标准误差和中心极限定理。
上述概念将通过案例研究进行介绍,这意味着你将能够将所学的知识应用于实际的真实世界数据集。
学习完概率论后,你可以参加 这门课程 来学习统计推断和建模的基础知识。
这个程序将教你定义人口估计和误差范围,介绍贝叶斯统计,并提供预测建模的基础知识。
我将这个 项目管理课程 作为可选内容包括在内,因为它与学习数据科学并不直接相关。而是教你使用 Unix/Linux 进行文件管理、Github、版本控制和在 R 中创建报告。
能够做到这些将节省你大量时间,并帮助你更好地管理端到端的数据科学项目。
该列表中的下一个课程是 数据处理,将教你如何准备数据并将其转换为机器学习模型容易处理的格式。
你将学习如何将数据导入 R、整理数据、处理字符串数据、解析 HTML、处理日期时间对象以及挖掘文本。
作为一名数据科学家,你经常需要提取以 PDF 文档、HTML 网页或 Tweet 形式公开在互联网上的数据。你不会总是获得干净、格式化的数据 CSV 文件或 Excel 表格。
到课程结束时,你将学会如何处理和清理数据,从中提取关键洞察。
线性回归是一种机器学习技术,用于建模两个或更多变量之间的线性关系。它也可以用来识别和调整混杂变量的影响。
本课程将教你线性回归模型背后的理论,如何检查两个变量之间的关系,以及在构建机器学习算法之前如何检测和去除混杂变量。
最后,你可能一直在等待的课程来了!哈佛的机器学习程序将教授你机器学习的基础知识、减轻过拟合的技术、监督学习和无监督学习建模方法以及推荐系统。
完成所有上述课程后,你可以参加哈佛的数据科学综合项目,在这里你的数据可视化、概率、统计学、数据清洗、数据组织、回归分析和机器学习的技能将受到评估。
通过这个最终项目,你将有机会将从上述课程中学到的所有知识综合运用,并获得从头开始完成一个实际数据科学项目的能力。
注意:上述所有课程均在 edX 的在线学习平台上提供,并且可以免费旁听。如果你需要课程证书,则需要支付费用。
Natassha Selvaraj 是一位自学成才的数据科学家,热爱写作。你可以在LinkedIn上与她联系。