Closed moonshinerd closed 6 months ago
Instruções para Executar o Scrapy:
Para testar o scrapy, siga estas etapas:
Clonar o Repositório: Certifique-se de clonar o repositório para o seu ambiente local usando o seguinte comando:
git clone <URL_do_repositório>
Entrar no Diretório do Projeto: Navegue para o diretório do projeto no terminal usando o comando cd:
cd <nome_do_diretório>
Ativar o Ambiente Virtual (Opcional):
python3 -m venv <nome_do_ambiente_virtual>
Se estiver usando um ambiente virtual, ative-o:
console
source
Instale as bibliotecas necessárias:
pip install --no-deps -r data_collection/requirements-dev.txt
cd data_collection
scrapy list
Se quiser converter para txt e apagar o pdf utilize
scrapy crawl <nome_do_raspador>
data_collection/data/licita_bsb/arquivos_raspados
Além dos comandos acima, o Scrapy oferece outros recursos para configurar o comando de raspagem. Os recursos a seguir podem ser usados sozinhos ou combinados.
start_date=AAAA-MM-DD: definirá a data inicial de coleta de diários.
scrapy crawl <nome_do_raspador>-a start_date=<AAAA-MM-DD>
end_date=AAAA-MM-DD: definirá a data final de coleta de diários. Caso omitido, assumirá a data do dia em que está sendo executado.
scrapy crawl <nome_do_raspador> -a end_date=<AAAA-MM-DD>
Nota:
Certifique-se de ter feito o checkout na branch 46-scrapping-diario-oficial-df antes de executar o projeto. Antes de tentar rodar o projeto, certifique-se de instalar os requirements conforme as instruções acima.
Implementamos com sucesso um web scraper utilizando Scrapy para extrair arquivos PDF do Diário Oficial do Distrito Federal (DODF) e convertê-los em arquivos de texto utilizando PyPDF2. Após todas as etapas da issue forem feitas com sucesso, o web scraper está pronto para uso, simplificando o acesso e análise dos dados do DODF.
Descrição/Objetivo: Implementar um web scraper utilizando a biblioteca Scrapy para extrair os arquivos PDF do Diário Oficial do Distrito Federal (DODF) e convertê-los para arquivos de texto (TXT).
Tarefas:
Critérios de aceitação (opcional):
Contexto adicional: Este projeto visa automatizar a extração de informações do Diário Oficial do Distrito Federal, facilitando o acesso e análise dos dados por parte dos usuários. Certifique-se de seguir as diretrizes de ética e uso responsável de dados ao realizar o scraping do site.