Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

PySpark 기반 데이터 엔지니어링 입문 #36

Open
s5646s opened this issue Jun 16, 2024 · 0 comments
Open

PySpark 기반 데이터 엔지니어링 입문 #36

s5646s opened this issue Jun 16, 2024 · 0 comments

Comments

@s5646s
Copy link
Contributor

s5646s commented Jun 16, 2024

주제: PySpark 기반 데이터 엔지니어링 입문

멘토

  • 최승위

스터디 기간

  • 2024.07.01 ~ 2024.08.13 (약 6주)

스터디 대상

  • 데이터 엔지니어링에 대한 관심이 있으신 분
  • 대용량 로그 데이터 처리의 원리에 대해 궁금하신 분

커리큘럼

1주차: PySpark 소개 및 환경 설정

주제

  • PySpark 개요 및 Spark 아키텍처 이해
  • PySpark 환경 설정 (로컬 및 클라우드)
  • PySpark 기본 구조 및 사용법

실습

  • PySpark 설치 및 환경 설정 (로컬 머신 및 Google Colab)
  • 간단한 PySpark 애플리케이션 작성 및 실행

2주차: 데이터 수집 및 데이터프레임

주제

  • PySpark를 사용한 데이터 수집 방법
  • 데이터프레임 개념 및 기본 연산
  • 데이터 로드 및 저장 (CSV, JSON, Parquet 등)

실습

  • 다양한 소스에서 데이터 로드 및 데이터프레임 생성
  • 데이터프레임을 CSV, JSON, Parquet 포맷으로 저장

3주차: 데이터 처리 및 변환

주제

  • PySpark에서의 데이터 클렌징 및 변환 기법
  • SQL을 사용한 데이터 처리
  • 사용자 정의 함수 (UDF) 사용

실습

  • 결측치 처리, 중복 제거 등 데이터 클렌징 작업 수행
  • SQL 쿼리를 사용한 데이터 변환
  • PySpark UDF를 사용한 데이터 변환

4주차: 고급 데이터 처리 기법

주제

  • PySpark를 사용한 집계 및 그룹화
  • 조인 및 복잡한 데이터 변환
  • 윈도우 함수 사용

실습

  • 집계 및 그룹화 작업 수행
  • 여러 데이터프레임 간의 조인 작업 수행
  • 윈도우 함수를 사용한 데이터 분석

5주차: 스트리밍 데이터 처리

주제

  • PySpark Streaming 개요
  • 스트리밍 데이터 소스와의 통합
  • 스트리밍 데이터 처리 및 실시간 분석

실습

  • PySpark Streaming을 사용한 간단한 스트리밍 애플리케이션 작성
  • Kafka와 통합하여 스트리밍 데이터 수집 및 처리
  • 실시간 데이터 시각화

6주차: 최종 프로젝트 및 데이터 시각화

주제

  • 전체 데이터 파이프라인 설계 및 구현
  • 데이터 시각화 및 보고서 작성
  • 데이터 보안 및 프라이버시 고려사항

실습

  • 팀별 또는 개인별 최종 프로젝트 수행 및 발표
  • PySpark와 데이터 시각화 도구 (Matplotlib, Seaborn)를 사용한 데이터 시각화

사용 기술

  • Spark
  • Hadoop
  • RDBMS

개발 언어

  • Python

모집 인원

  • 4명 이하

하고 싶은 말

  • 우리가 데이터를 이해하고 활용할 수 있을 때, 그 데이터는 무한한 가능성을 가진다.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant