GitHub - jonathanmagliano/gcp-hadoop_py: Google Cloud Platform (GCP), Hadoop, Dataproc and Python.

GCP Dataproc

Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform

O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.

Etapas do Desafio

Criar um bucket no Cloud Storage
Atualizar o arquivo contador.py com o nome do Bucket criado nas linhas que contém {SEU_BUCKET}.
Fazer o upload dos arquivos contador.py e livro.txt para o bucket criado (instruções abaixo)
- https://cloud.google.com/storage/docs/uploading-objects
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando gs://{SEU_BUCKET}/contador.py
O Job irá gerar uma pasta no bucket chamada resultado. Dentro dessa pasta o arquivo part-00000 irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.

Entrega do Resultado

Criar um arquivo chamado resultado.txt. Dentro desse arquivo, colocar as 10 palavras mais utilizadas no livro.
Inserir os arquivos resultado.txt e part-00000 no repositório.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
LICENSE		LICENSE
README.md		README.md
contador.py		contador.py
livro.txt		livro.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GCP Dataproc

Etapas do Desafio

Entrega do Resultado

Material de apoio

About

Releases

Packages

Languages

License

jonathanmagliano/gcp-hadoop_py

Folders and files

Latest commit

History

Repository files navigation

GCP Dataproc

Etapas do Desafio

Entrega do Resultado

Material de apoio

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages