Português (BR) | English (US)
Dentro do ecossistema do Querido Diário, este repositório é o responsável pela tarefa de raspagem dos sites publicadores de diários oficiais.
Conheça mais sobre as tecnologias e a história do projeto no site do Querido Diário
- Como contribuir
- Ambiente de desenvolvimento
- Como executar
- Solução de problemas
- Suporte
- Agradecimentos
- Open Knowledge Brasil
- Licença
Agradecemos por considerar contribuir com o Querido Diário! 🎉
Você encontra como fazê-lo no CONTRIBUTING.md!
Além disso, consulte a documentação do Querido Diário para te ajudar.
Você precisa ter Python (+3.0) e o framework Scrapy instalados.
Os comandos abaixo preparam o ambiente em sistema operacional Linux. Eles consistem em criar um ambiente virtual de Python, instalar os requisitos listados em requirements-dev
e a ferramenta para padronização de código pre-commit
.
python3 -m venv .venv
source .venv/bin/activate
pip install -r data_collection/requirements-dev.txt
pre-commit install
A configuração em outros sistemas operacionais está disponÃvel em "como configurar o ambiente de desenvolvimento", incluindo mais detalhes para quem deseja contribuir com o desenvolvimento do repositório.
Para experimentar a execução de um raspador já integrado ao projeto ou testar o que esteja desenvolvendo, siga os comandos:
- Se ainda não o fez, ative o ambiente virtual no diretório
/querido-diario
:
source .venv/bin/activate
- Vá para o diretório
data_collection
:
cd data_collection
- Verifique a lista de raspadores disponÃveis:
scrapy list
- Execute um raspador da lista:
scrapy crawl <nome_do_raspador> //exemplo: scrapy crawl ba_acajutiba
-
Os diários coletados na raspagem serão salvos na pasta
data_collection/data
-
Ao executar o item 4, o raspador coletará todos os diários oficiais do site publicador daquele municÃpio desde a primeira edição digital. Para execuções menores, utilize flags no comando de execução:
start_date=AAAA-MM-DD
: definirá a data inicial de coleta de diários.
scrapy crawl <nome_do_raspador> -a start_date=<AAAA-MM-DD>
end_date=AAAA-MM-DD
: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.
scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>
Confira o arquivo de solução de problemas para resolver os problemas mais frequentes com a configuração do ambiente do projeto.
Ingresse em nosso canal de comunidade para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cÃvica em geral.
Este projeto é mantido pela Open Knowledge Brasil e possÃvel graças à s comunidades técnicas, à s Embaixadoras de Inovação CÃvica, à s pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.
Conheça quem apoia o Querido Diário.
A Open Knowledge Brasil é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cÃvicas, projetos, análises de polÃticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.
Todo o trabalho produzido pela OKBR está disponÃvel livremente.
Código licenciado sob a Licença MIT.