unb-mds / LicitaBSB-24.1

Licita BSB é uma plataforma dedicada à coleta e divulgação de licitações realizadas no Distrito Federal.
https://licitabsb.netlify.app/
MIT License
11 stars 0 forks source link

 Scrapping Diario Oficial DF #46

Closed moonshinerd closed 6 months ago

moonshinerd commented 6 months ago

Descrição/Objetivo: Implementar um web scraper utilizando a biblioteca Scrapy para extrair os arquivos PDF do Diário Oficial do Distrito Federal (DODF) e convertê-los para arquivos de texto (TXT).

Tarefas:

Critérios de aceitação (opcional):

Contexto adicional: Este projeto visa automatizar a extração de informações do Diário Oficial do Distrito Federal, facilitando o acesso e análise dos dados por parte dos usuários. Certifique-se de seguir as diretrizes de ética e uso responsável de dados ao realizar o scraping do site.

thaleseuflauzino commented 6 months ago

Instruções para Executar o Scrapy:

Para testar o scrapy, siga estas etapas:

Clonar o Repositório: Certifique-se de clonar o repositório para o seu ambiente local usando o seguinte comando:

git clone <URL_do_repositório>

Entrar no Diretório do Projeto: Navegue para o diretório do projeto no terminal usando o comando cd:

cd <nome_do_diretório>

Ativar o Ambiente Virtual (Opcional):

python3 -m venv <nome_do_ambiente_virtual>

Se estiver usando um ambiente virtual, ative-o: console source /bin/activate

Instale as bibliotecas necessárias:

pip install --no-deps -r data_collection/requirements-dev.txt

Pronto.

Agora, com o ambiente pronto para rodar o Scrapy, podemos seguir:

  1. Navegue até o diretório data_collection:
    cd data_collection
  2. Verifique a lista de raspadores disponíveis:
    scrapy list

    Se quiser converter para txt e apagar o pdf utilize se deseja somente raspar utilize

  3. Execute um raspador da lista:
    scrapy crawl <nome_do_raspador>
  4. Os diários coletados na raspagem serão salvos no diretório data_collection/data/licita_bsb/arquivos_raspados

Dicas de execução

Além dos comandos acima, o Scrapy oferece outros recursos para configurar o comando de raspagem. Os recursos a seguir podem ser usados sozinhos ou combinados.

start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários.

scrapy crawl <nome_do_raspador>-a start_date=<AAAA-MM-DD>

end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.

scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>

Nota:

Certifique-se de ter feito o checkout na branch 46-scrapping-diario-oficial-df antes de executar o projeto. Antes de tentar rodar o projeto, certifique-se de instalar os requirements conforme as instruções acima.

thaleseuflauzino commented 6 months ago

Implementamos com sucesso um web scraper utilizando Scrapy para extrair arquivos PDF do Diário Oficial do Distrito Federal (DODF) e convertê-los em arquivos de texto utilizando PyPDF2. Após todas as etapas da issue forem feitas com sucesso, o web scraper está pronto para uso, simplificando o acesso e análise dos dados do DODF.