原文:
www.kdnuggets.com/the-only-free-course-you-need-to-become-a-professional-data-engineer
作者提供的图片
机器学习和数据科学有很多课程和资源,但数据工程的课程却非常稀少。这引发了一些问题。这是一个困难的领域吗?薪资较低吗?是否不如其他技术职位令人兴奋?然而,现实是许多公司积极寻求数据工程人才,并提供丰厚的薪资,有时超过 200,000 美元。数据工程师作为数据平台的架构师,扮演着关键角色,设计和构建基础系统,使数据科学家和机器学习专家能够有效地工作。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织 IT
针对这一行业差距,DataTalkClub 推出了一个变革性的免费训练营,“数据工程 Zoomcamp”。该课程旨在帮助初学者或希望转行的专业人士,提供数据工程方面的核心技能和实际经验。
这是一个 6 周训练营,你将通过多个课程、阅读材料、研讨会和项目来学习。在每个模块结束时,你将获得作业以实践所学内容。
-
第 1 周: GCP、Docker、Postgres、Terraform 介绍及环境设置。
-
第 2 周: 使用 Mage 进行工作流编排。
-
第 3 周: 使用 BigQuery 进行数据仓储和机器学习。
-
第 4 周: 使用 dbt、Google Data Studio 和 Metabase 进行分析工程师培训。
-
第 5 周: 使用 Spark 进行批处理。
-
第 6 周: 使用 Kafka 进行流处理。
图片来源于 DataTalksClub/data-engineering-zoomcamp
大纲包含 6 个模块、2 个工作坊和一个项目,涵盖了成为专业数据工程师所需的一切内容。
在本模块中,你将学习 Docker 和 Postgres,从基础知识开始,通过详细教程逐步深入,包括创建数据管道、使用 Docker 运行 Postgres 等。
本模块还涵盖了如 pgAdmin、Docker-compose 和 SQL 复习等重要工具,并提供了 Docker 网络和 Windows 子系统 Linux 用户的特别教程。课程结束时,将介绍 GCP 和 Terraform,提供对容器化和基础设施即代码的全面理解,这对于现代云环境至关重要。
本模块深入探讨了 Mage,这是一种创新的开源混合框架,用于数据转换和集成。模块从工作流编排的基础开始,逐步进行实际操作,包括通过 Docker 设置 Mage、从 API 到 Postgres 和 Google Cloud Storage (GCS) 再到 BigQuery 的 ETL 管道构建。
本模块结合了视频、资源和实际任务,确保了全面的学习体验,帮助学习者掌握使用 Mage 管理复杂数据工作流的技能。
在第一个工作坊中,你将掌握构建高效数据摄取管道的技能。工作坊重点讲解了从 API 和文件中提取数据、规范化和加载数据以及增量加载技术等基本技能。完成此工作坊后,你将能够像高级数据工程师一样创建高效的数据管道。
本模块深入探讨了数据存储和分析,重点关注使用 BigQuery 的数据仓库。涵盖了如分区和聚类等关键概念,并深入研究了 BigQuery 的最佳实践。模块还涉及了高级主题,特别是将机器学习(ML)与 BigQuery 的集成,重点讲解了 SQL 在 ML 中的应用,并提供了有关超参数调整、特征预处理和模型部署的资源。
数据分析工程模块专注于使用 dbt(数据构建工具)和现有的数据仓库(BigQuery 或 PostgreSQL)来构建项目。
本模块涵盖了在云环境和本地环境中设置 dbt 的内容,介绍了数据分析工程的概念、ETL 与 ELT 的区别以及数据建模。还涵盖了 dbt 的高级功能,如增量模型、标签、钩子和快照。
最后,模块介绍了使用 Google Data Studio 和 Metabase 等工具可视化转换数据的技术,并提供了故障排除和高效数据加载的资源。
本模块涵盖了使用 Apache Spark 进行批处理,从批处理和 Spark 的介绍开始,并包括 Windows、Linux 和 MacOS 的安装说明。
该模块包括探索 Spark SQL 和 DataFrames、数据准备、执行 SQL 操作和理解 Spark 内部工作原理。最后,模块结尾处涉及在云中运行 Spark 和将 Spark 与 BigQuery 集成。
本模块以流处理概念的介绍开始,接着深入探索 Kafka,包括其基础知识、与 Confluent Cloud 的集成以及涉及生产者和消费者的实际应用。
本模块还涵盖了 Kafka 配置和流,涉及流连接、测试、窗口化以及 Kafka ksqldb 和 Connect 的使用。此外,还扩展了对 Python 和 JVM 环境的关注,包含了用于 Python 流处理的 Faust、Pyspark - Structured Streaming 和 Kafka Streams 的 Scala 示例。
你将学习如何使用 RisingWave 处理和管理流数据,它提供了一个成本高效的解决方案,具有 PostgreSQL 风格的体验,以增强你的流处理应用程序。
本项目的目标是实施我们在本课程中学到的所有概念,以构建一个端到端的数据管道。你将创建一个包含两个面板的仪表板,通过选择数据集、建立处理数据的管道并将其存储在数据湖中、建立从数据湖到数据仓库的数据传输管道、在数据仓库中转换数据并为仪表板做准备,最后构建一个仪表板以可视化呈现数据。
-
基本编码和命令行技能
-
SQL 基础
-
Python:有益但不是必需
-
Ankush Khanna
-
Victoria Perez Mola
-
Alexey Grigorev
-
Matt Palmer
-
Luis Oliveira
-
Michael Shoemaker
加入我们的 2024 期班级,与一个出色的数据工程社区一起开始学习。通过专家主导的培训、实践经验以及针对行业需求量身定制的课程,本训练营不仅为你提供必要的技能,还将你置于一个高薪且需求旺盛的职业路径的前沿。立即注册,将你的梦想变为现实!
Abid Ali Awan(@1abidaliawan)是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为挣扎于心理疾病的学生开发一款 AI 产品。