Open anapaulagomes opened 3 years ago
É pra pegar os dados apenas desse ano? Pelo que notamos, os dados nesse site começam a partir de 2018.
Estávamos conversando sobre abordagens para realizar o scraping e notamos que:
Todos esses links do lado direito, possuem na rota a string "visualizar-publicacoes
", se trocarmos por "download-documento
", já teremos o link de download direto.
Por exemplo:
http://www.ipmbrasil.org.br/visualizar-publicacoes.aspx?cod=4785&file=B5BE49AA9CE52A4F32434A2A4E6CB397&type=contaspublica
fica
http://www.ipmbrasil.org.br/download-documento.aspx?cod=4785&file=B5BE49AA9CE52A4F32434A2A4E6CB397&type=contaspublica
Acho que o mesmo vale para a issue #259 mas gostaria de entender uma coisa: esse scrap é para pegar de todas as categorias?
Olá! Isso mesmo, @exageraldo.
Devemos raspar todas as categorias das contas públicas: http://consorcioportaldosertao.ba.ipmbrasil.org.br/contas-publicas