Skip to content

📰 Brazilian government gazettes, accessible to everyone.

License

Notifications You must be signed in to change notification settings

insighted4/diario-oficial

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Português (BR) | English (US)

Querido Diário

Querido Diário

Dentro do ecossistema do Querido Diário, este repositório é o responsável pela tarefa de raspagem dos sites publicadores de diários oficiais.

Conheça mais sobre as tecnologias e a história do projeto no site do Querido Diário

Sumário

Como contribuir

catarse

Agradecemos por considerar contribuir com o Querido Diário! 🎉

Você encontra como fazê-lo no CONTRIBUTING.md!

Além disso, consulte a documentação do Querido Diário para te ajudar.

Ambiente de desenvolvimento

Você precisa ter Python (+3.0) e o framework Scrapy instalados.

Os comandos abaixo preparam o ambiente em sistema operacional Linux. Eles consistem em criar um ambiente virtual de Python, instalar os requisitos listados em requirements-dev e a ferramenta para padronização de código pre-commit.

python3 -m venv .venv
source .venv/bin/activate
pip install -r data_collection/requirements-dev.txt
pre-commit install

A configuração em outros sistemas operacionais está disponível em "como configurar o ambiente de desenvolvimento", incluindo mais detalhes para quem deseja contribuir com o desenvolvimento do repositório.

Como executar

Para experimentar a execução de um raspador já integrado ao projeto ou testar o que esteja desenvolvendo, siga os comandos:

  1. Se ainda não o fez, ative o ambiente virtual no diretório /querido-diario:
source .venv/bin/activate
  1. Vá para o diretório data_collection:
cd data_collection
  1. Verifique a lista de raspadores disponíveis:
scrapy list
  1. Execute um raspador da lista:
scrapy crawl <nome_do_raspador>       //exemplo: scrapy crawl ba_acajutiba
  1. Os diários coletados na raspagem serão salvos na pasta data_collection/data

  2. Ao executar o item 4, o raspador coletará todos os diários oficiais do site publicador daquele município desde a primeira edição digital. Para execuções menores, utilize flags no comando de execução:

  • start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários.
scrapy crawl <nome_do_raspador> -a start_date=<AAAA-MM-DD>
  • end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.
scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>

Solução de problemas

Confira o arquivo de solução de problemas para resolver os problemas mais frequentes com a configuração do ambiente do projeto.

Suporte

Discord Invite

Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.

Agradecimentos

Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às Embaixadoras de Inovação Cívica, às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.

Conheça quem apoia o Querido Diário.

Open Knowledge Brasil

Twitter Follow Instagram Follow LinkedIn Follow

A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.

Todo o trabalho produzido pela OKBR está disponível livremente.

Licença

Código licenciado sob a Licença MIT.

About

📰 Brazilian government gazettes, accessible to everyone.

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.8%
  • Makefile 0.2%