Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
-
Criar um bucket no Cloud Storage
-
Atualizar o arquivo
contador.py
com o nome do Bucket criado nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (instruções abaixo) -
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py
-
O Job irá gerar uma pasta no bucket chamada
resultado
. Dentro dessa pasta o arquivopart-00000
irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.
- Criar um arquivo chamado
resultado.txt
. Dentro desse arquivo, colocar as 10 palavras mais utilizadas no livro. - Inserir os arquivos
resultado.txt
epart-00000
no repositório.