DadosAbertosDeFeira / tcm-ba

Raspagem de dados do TCM-BA 📄
https://tcm.ba.gov.br
MIT License
6 stars 0 forks source link

Adiciona script para checar os dados #17

Closed anapaulagomes closed 3 years ago

anapaulagomes commented 3 years ago

Script para verificar os arquivos dos itens com os arquivos salvos no disco.

Para isso é esperado que a estrutura de arquivos esteja organizada da seguinte forma:

<cidade>
    <ano>
        anual
            consulta<qualquer-nome>.json
            <unidades>
        mensal
            consulta<qualquer-nome>.json
            <mês-formato-DD>
                <unidades>

O script vai contar com o JSON na mesma pasta da periodicidade (mensal ou anual). Durante a execução o raspador criar as pastas e arquivos. Ao final você precisa copiar da pasta atual para a pasta da periodicidade correspondente.

Os argumentos são passados durante a execução do raspador:

scrapy crawl consulta_publica \
    -a periodicidade=mensal \
    -a competencia=01/2019 \
    -s FILES_STORE="/home/user/" \
    -o consulta-publica-feira-2019-01.json
cp consulta-publica-feira-2019-01.json \
    /home/user/2019/mensal/01/consulta-publica-feira-2019-01.json

Para usar:

$ python scripts/check.py "/users/Ana/feira-de-santana/2020"

==============================================
/users/Ana/feira-de-santana/2018/anual
Arquivos da pasta: 804 - Itens do JSON: 804
Encontrados: 804 - Não encontrados: 0
anapaulagomes commented 3 years ago

Pode mergear isso aqui, @Laerte?

Laerte commented 3 years ago

Pode sim! Desculpe a demora.

anapaulagomes commented 3 years ago

Sem grilo! Valeu! @Laerte