www.kdnuggets.com/10-github-repositories-to-master-data-engineering
作者图像 | DALLE-3 & Canva
数据工程正在快速发展,公司现在招聘的数据工程师比数据科学家多。数据工程、云架构和 MLOps 工程等运营职位需求旺盛。
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
作为数据工程师,你需要掌握容器化、基础设施即代码、工作流编排、分析工程、批处理和流处理工具。除此之外,你还需要掌握云基础设施,并管理如 Databricks 和 Snowflakes 等服务。
在本博客中,我们将了解 10 个 GitHub 仓库,帮助你掌握所有核心工具和概念。这些 GitHub 仓库包含课程、经验、路线图、必备工具列表、项目和手册。你只需在学习成为专业数据工程师的过程中将它们收藏即可。
超赞的数据工程仓库包含了数据工程工具、框架和库的列表,是任何想深入这个领域的人的绝佳起点。
它涵盖了数据库、数据摄取、文件系统、流处理、批处理、数据湖管理、工作流编排、监控、测试以及图表和仪表板的工具。
链接: igorbarinov/awesome-data-engineering
数据工程 Zoomcamp是一个完整的课程,提供了数据工程的动手学习体验。你将通过视频教程、测验、项目、作业和社区驱动的评估来学习新概念和工具。
数据工程 Zoomcamp 包括:
-
容器化和基础设施即代码
-
工作流编排
-
数据摄取
-
数据仓库
-
分析工程
-
批处理
-
流处理
链接: DataTalksClub/data-engineering-zoomcamp
数据工程宝典是一个涵盖数据工程各个方面的文章和教程的集合,包括数据摄取、数据处理和数据仓储。
数据工程宝典包括:
-
基础工程技能
-
高级工程技能
-
免费动手课程/教程
-
案例研究
-
最佳实践 云平台
-
130+ 数据来源 数据科学
-
1001 道面试题
-
推荐书籍、课程和播客
链接: andkret/Cookbook
数据工程师路线图 仓库提供了成为数据工程师的逐步指南。这个仓库涵盖了从数据工程基础到基础设施即代码和云计算等高级主题的一切内容。
数据工程师路线图包括:
-
计算机科学基础
-
学习 Python
-
测试
-
数据库
-
数据仓库
-
集群计算
-
数据处理
-
消息
-
工作流调度
-
网络
-
基础设施即代码
-
CI/CD
-
数据安全与隐私
链接: datastacktv/data-engineer-roadmap
数据工程如何做是一个适合初学者的资源,帮助从零开始学习数据工程。它包含了一系列教程、课程、书籍和其他资源,以帮助你建立坚实的数据工程概念和最佳实践基础。如果你是新手,这个仓库将帮助你轻松导航广阔的数据工程领域。
如何成为数据工程师包括:
-
有用的文章和博客
-
演讲
-
算法与数据结构
-
SQL
-
编程
-
数据库
-
分布式系统
-
书籍
-
课程
-
工具
-
云平台
-
社区
-
工作岗位
-
新闻通讯
链接: adilkhash/Data-Engineering-HowTo
超棒的开源数据工程是一个开源数据工程工具的列表,对于任何希望贡献或使用这些工具来构建现实世界数据工程项目的人来说,这都是一个宝贵的资源。它包含了大量关于开源工具和框架的信息,使其成为探索替代数据工程解决方案的绝佳资源。
该仓库包含以下开源工具:
-
分析
-
商业智能
-
数据湖仓
-
数据变更捕获
-
数据存储
-
数据治理和注册
-
数据虚拟化
-
数据编排
-
格式
-
集成
-
消息基础设施
-
规格和标准
-
流处理
-
测试
-
监控和日志记录
-
版本控制
-
工作流管理
链接: gunnarmorling/awesome-opensource-data-engineering
Pyspark 示例项目 仓库提供了一个实施 PySpark ETL 作业和应用程序最佳实践的实际示例。
PySpark 是一个流行的数据处理工具,本仓库将帮助你掌握它。你将学习如何构建代码结构、处理数据转换,并有效地优化 PySpark 工作流。
项目包括:
-
ETL 作业的结构
-
将配置参数传递给 ETL 作业
-
打包 ETL 作业依赖
-
运行 ETL 作业
-
调试 Spark 作业
-
自动化测试
-
管理项目依赖
链接: AlexIoannides/pyspark-example-project
数据工程师手册 是一个全面的资源集合,涵盖了数据工程的所有方面。它包括教程、文章和有关数据工程的所有主题的书籍。无论你是需要快速参考指南还是深入知识,这本手册都为各级数据工程师提供了资源。
手册包括:
-
极好的书籍
-
关注的社区
-
值得关注的公司
-
可读博客
-
白皮书
-
极好的 YouTube 频道
-
极好的播客
-
时事通讯
-
LinkedIn、Twitter、TikTok 和 Instagram 上的影响者
-
课程
-
认证
-
会议
链接: DataExpert-io/data-engineer-handbook
数据工程维基 仓库是一个由社区驱动的维基,提供了一个全面的学习数据工程的资源。该仓库涵盖了广泛的话题,包括数据管道、数据仓库和数据建模。
数据工程维基包括:
-
数据工程概念
-
数据工程的常见问题
-
如何做出数据工程决策的指南
-
数据工程中常用的工具
-
数据工程任务的逐步指南
-
学习资源
链接: data-engineering-community/data-engineering-wiki
数据工程实践 提供了一个动手学习数据工程的方式。它提供了实践项目和练习,帮助你将知识和技能应用于实际场景。通过这些项目的练习,你将获得实际经验,并建立一个展示你数据工程能力的作品集。
数据工程实践问题包括以下练习:
-
下载文件
-
网络抓取 + 下载 + Pandas
-
Boto3 AWS + s3 + Python。
-
将 JSON 转换为 CSV + 不规则目录
-
Postgres + Python 数据建模
-
使用 PySpark 进行数据摄取和聚合
-
使用各种 PySpark 函数
-
使用 DuckDB 进行分析和转换
-
使用 Polars 延迟计算
链接: danielbeach/data-engineering-practice
掌握数据工程需要奉献精神、坚持不懈以及对学习新概念和工具的热情。这 10 个 GitHub 仓库提供了丰富的信息和资源,帮助你成为一名专业的数据工程师,并保持对当前趋势的了解。
无论你是刚刚起步还是经验丰富的数据工程师,我鼓励你探索这些资源,参与开源项目,并与 GitHub 上充满活力的数据工程社区保持联系。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热爱构建机器学习模型。目前,他专注于内容创作和撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络构建一个 AI 产品,帮助那些与心理健康问题作斗争的学生。