ipeadata-lab / raspagem-portal-antigo-IPEA

Raspagem de Publicações do Portal Antigo IPEA
0 stars 0 forks source link

Tabulacao do que foi raspado e Tabela para raspagem manual #4

Open lucasmation opened 4 months ago

lucasmation commented 4 months ago

https://drive.google.com/drive/folders/1u3PBRVvZJzaRqTfcgLbVUNKGB0KHqTon?usp=sharing

@luizmarioags Vi que voce adicinou a tabela 1 (que eu converti de excel para formato nativo do Google Docs, fazer isso em atualizacoes futuras). falta adicionar a tabela 2.

A tabulacao que voce fez foi com o denominador sendo o total de raspados.

Na tabela 1 eu adicionei uma tabela dinâmica com a tabulação certa, na qual o total inclui os nao raspados tb. Segue:

image

Seria possivel raspar a categoria "TDs Ipea" ? Imagino que apesar do nome diferente de categoria, seja um robo igunal ao ja existente para os demais TDs (cujos nomes incluiem o ano).

luizmarioags commented 2 months ago

Olá pessoal, a Tabela 2 foi corrigida e teve os campos que antes estavam em branco preenchidos manualmente, dessa forma a nova tabela 2 foi salva na pasta https://docs.google.com/spreadsheets/d/18mwuhjjIkVQRET4MpFku7nskIb-jgIUY_uJUpR2TOrI/edit#gid=542139796. Com isso fiz o código pdfs_download_v1.py para baixar os PDFs e armazena-los em uma pasta local, a serem futuramente movidos para a rede. Dado que alguns ficaram com problemas na hora de baixar e terão de ser baixados manualmente.