leobezerra / covid19

COVID-19 dashboards
Apache License 2.0
9 stars 3 forks source link

Scraper: migrar para o camelot #8

Open leobezerra opened 4 years ago

leobezerra commented 4 years ago

O módulo tabula-py usado para raspar os boletins depende do Java. Além disso, em caso de multirows, a raspagem quebra o resultado em múltiplas linhas, o que torna o processamento mais complexo.

O módulo camelot não apresenta dependência externa e modela multirows como strings contendo o caracter '\n', que é fácil de processar.

O que fazer

leobezerra commented 4 years ago

Reverti essa mudança pra que seja possível avaliar com mais calma o uso do Camelot.

O código estava redondo, mas a instalação do Camelot se mostrou problemática em alguns setups.