Skip to content

caio-donalisio/tcc

Repository files navigation

Este script é utilizado para transformar imagens de tabelas em arquivos PDF para arquivos .csv

Como utilizar este algoritmo:

Note que este algoritmo utiliza o serviço Google Cloud Vision AI, que cobra um valor por página extraída. Consulta a documentação do Google para verificar a precificação.

(Caso esteja usando Windows, execute-o em ambiente WSL2)

  • Aplicações pré-requisitas: docker, poetry, CLI gcloud

  • Também é necessária uma conta da Google Cloud

  • Execute 'poetry install' para instalar as dependências do módulo.

  • Crie um repositório no Google Cloud Storage e insira o nome deste repositório na variável "BUCKET_NAME" em config.py

  • Crie um arquivo nomeado ".env" na raiz desta pasta e insira a linha: GOOGLE_VISION_API_KEY="<chave de acesso>" ( para obter a sua chave de acesso, consulte https://cloud.google.com/vision/product-search/docs/auth?hl=pt-br)

  • Faça a autenticação na CLI gcloud ("gcloud auth login && gcloud auth application-default login") - também é necessário definir o projeto de cota com "auth application-default set-quota-project " https://cloud.google.com/docs/quotas/set-quota-project?hl=pt-br

  • Insira o arquivo em PDF desejado na pasta 01_original_files

  • execute main.py (com os comandos "poetry shell" seguido de "python main.py")

  • Caso haja erros na detecção de linhas, altere o espaçamento entre linhas esperado em 'config.py' alterando a variável GAP_BETWEEN_LINES

  • As tabelas resultados serão geradas em formato .csv na pasta '06_output_table_files'

  • As outras pastas contém etapas intermediárias do processamento e podem ser consultadas para correção de erros

Exemplo de tabela detectada QUADRO_0033

Exemplo de tabela exportada image

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published