Skip to content

Latest commit

 

History

History
151 lines (76 loc) · 8.93 KB

the-only-free-course-you-need-to-become-a-professional-data-engineer.md

File metadata and controls

151 lines (76 loc) · 8.93 KB

成为专业数据工程师所需的唯一免费课程

原文:www.kdnuggets.com/the-only-free-course-you-need-to-become-a-professional-data-engineer

成为专业数据工程师所需的唯一免费课程

作者提供的图片

机器学习和数据科学有很多课程和资源,但数据工程的课程却非常稀少。这引发了一些问题。这是一个困难的领域吗?薪资较低吗?是否不如其他技术职位令人兴奋?然而,现实是许多公司积极寻求数据工程人才,并提供丰厚的薪资,有时超过 200,000 美元。数据工程师作为数据平台的架构师,扮演着关键角色,设计和构建基础系统,使数据科学家和机器学习专家能够有效地工作。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织 IT


针对这一行业差距,DataTalkClub 推出了一个变革性的免费训练营,“数据工程 Zoomcamp”。该课程旨在帮助初学者或希望转行的专业人士,提供数据工程方面的核心技能和实际经验。

课程概述:数据工程掌握的路线图

这是一个 6 周训练营,你将通过多个课程、阅读材料、研讨会和项目来学习。在每个模块结束时,你将获得作业以实践所学内容。

  1. 第 1 周: GCP、Docker、Postgres、Terraform 介绍及环境设置。

  2. 第 2 周: 使用 Mage 进行工作流编排。

  3. 第 3 周: 使用 BigQuery 进行数据仓储和机器学习。

  4. 第 4 周: 使用 dbt、Google Data Studio 和 Metabase 进行分析工程师培训。

  5. 第 5 周: 使用 Spark 进行批处理。

  6. 第 6 周: 使用 Kafka 进行流处理。

成为专业数据工程师所需的唯一免费课程

图片来源于 DataTalksClub/data-engineering-zoomcamp

大纲

大纲包含 6 个模块、2 个工作坊和一个项目,涵盖了成为专业数据工程师所需的一切内容。

模块 1: 掌握容器化和基础设施即代码

在本模块中,你将学习 Docker 和 Postgres,从基础知识开始,通过详细教程逐步深入,包括创建数据管道、使用 Docker 运行 Postgres 等。

本模块还涵盖了如 pgAdmin、Docker-compose 和 SQL 复习等重要工具,并提供了 Docker 网络和 Windows 子系统 Linux 用户的特别教程。课程结束时,将介绍 GCP 和 Terraform,提供对容器化和基础设施即代码的全面理解,这对于现代云环境至关重要。

模块 2: 工作流编排技术

本模块深入探讨了 Mage,这是一种创新的开源混合框架,用于数据转换和集成。模块从工作流编排的基础开始,逐步进行实际操作,包括通过 Docker 设置 Mage、从 API 到 Postgres 和 Google Cloud Storage (GCS) 再到 BigQuery 的 ETL 管道构建。

本模块结合了视频、资源和实际任务,确保了全面的学习体验,帮助学习者掌握使用 Mage 管理复杂数据工作流的技能。

工作坊 1: 数据摄取策略

在第一个工作坊中,你将掌握构建高效数据摄取管道的技能。工作坊重点讲解了从 API 和文件中提取数据、规范化和加载数据以及增量加载技术等基本技能。完成此工作坊后,你将能够像高级数据工程师一样创建高效的数据管道。

模块 3: 数据仓库

本模块深入探讨了数据存储和分析,重点关注使用 BigQuery 的数据仓库。涵盖了如分区和聚类等关键概念,并深入研究了 BigQuery 的最佳实践。模块还涉及了高级主题,特别是将机器学习(ML)与 BigQuery 的集成,重点讲解了 SQL 在 ML 中的应用,并提供了有关超参数调整、特征预处理和模型部署的资源。

模块 4: 数据分析工程

数据分析工程模块专注于使用 dbt(数据构建工具)和现有的数据仓库(BigQuery 或 PostgreSQL)来构建项目。

本模块涵盖了在云环境和本地环境中设置 dbt 的内容,介绍了数据分析工程的概念、ETL 与 ELT 的区别以及数据建模。还涵盖了 dbt 的高级功能,如增量模型、标签、钩子和快照。

最后,模块介绍了使用 Google Data Studio 和 Metabase 等工具可视化转换数据的技术,并提供了故障排除和高效数据加载的资源。

模块 5: 批处理熟练度

本模块涵盖了使用 Apache Spark 进行批处理,从批处理和 Spark 的介绍开始,并包括 Windows、Linux 和 MacOS 的安装说明。

该模块包括探索 Spark SQL 和 DataFrames、数据准备、执行 SQL 操作和理解 Spark 内部工作原理。最后,模块结尾处涉及在云中运行 Spark 和将 Spark 与 BigQuery 集成。

模块 6:使用 Kafka 进行流数据的艺术

本模块以流处理概念的介绍开始,接着深入探索 Kafka,包括其基础知识、与 Confluent Cloud 的集成以及涉及生产者和消费者的实际应用。

本模块还涵盖了 Kafka 配置和流,涉及流连接、测试、窗口化以及 Kafka ksqldb 和 Connect 的使用。此外,还扩展了对 Python 和 JVM 环境的关注,包含了用于 Python 流处理的 Faust、Pyspark - Structured Streaming 和 Kafka Streams 的 Scala 示例。

研讨会 2:使用 SQL 进行流处理

你将学习如何使用 RisingWave 处理和管理流数据,它提供了一个成本高效的解决方案,具有 PostgreSQL 风格的体验,以增强你的流处理应用程序。

项目:真实世界的数据工程应用

本项目的目标是实施我们在本课程中学到的所有概念,以构建一个端到端的数据管道。你将创建一个包含两个面板的仪表板,通过选择数据集、建立处理数据的管道并将其存储在数据湖中、建立从数据湖到数据仓库的数据传输管道、在数据仓库中转换数据并为仪表板做准备,最后构建一个仪表板以可视化呈现数据。

立即注册

2024 期班级详情

先决条件

  • 基本编码和命令行技能

  • SQL 基础

  • Python:有益但不是必需

由专家讲师引导你的学习之旅

  • Ankush Khanna

  • Victoria Perez Mola

  • Alexey Grigorev

  • Matt Palmer

  • Luis Oliveira

  • Michael Shoemaker

结论

加入我们的 2024 期班级,与一个出色的数据工程社区一起开始学习。通过专家主导的培训、实践经验以及针对行业需求量身定制的课程,本训练营不仅为你提供必要的技能,还将你置于一个高薪且需求旺盛的职业路径的前沿。立即注册,将你的梦想变为现实!

Abid Ali Awan@1abidaliawan)是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为挣扎于心理疾病的学生开发一款 AI 产品。

更多相关话题