cuducos / fio-de-ariadne

🪁 Structuiring data on missing kids in Brazil
https://fio-de-ariadne.herokuapp.com/
GNU General Public License v3.0
77 stars 16 forks source link

Criar raspagem de dados para Santa Catarina #18

Open cuducos opened 4 years ago

cuducos commented 4 years ago

Os dados estão em: http://www.desaparecidosdobrasil.org/criancas-desaparecidas/santa-catarina

ericovis commented 4 years ago

Comecei a dar uma olhada nessa issue pra fazer e percebi que o site que é feita a raspagem do PR é o mesmo que vocês vão usar para fazer a raspagem de SC, sendo assim, eu não cheguei a comparar de fato as duas páginas pra ver se os seletores que são usados na raspagem do PR batem mas a minha suspeita é que sim.

Com isso em mente minha sugestão seria mudar a estratégia de spiders para fazer a raspagem por site, e não por estado, se a estrutura for a mesma, com um spider a gente faz a raspagem de todos os estados presentes no http://www.desaparecidosdobrasil.org de uma vez só.

Isso seria interessante ou só um copia e cola do spider do PR com as devidas modificações já bastam?

cuducos commented 4 years ago

eu não cheguei a comparar de fato as duas páginas

Belo ponto. E esse ponto é crucial: a estrutura do texto de Santa Catarina é muito diferente diferente da do texto do Paraná.

Com isso em mente minha sugestão seria mudar a estratégia de spiders para fazer a raspagem por site, e não por estado

Sim, no futuro. Mas agora isso não acho que vai ser efetivo. Como a estrutura do texto é diferente, meu chute é que o spider do PR não vai estruturar (praticamente) nada do site de SC. Então o que precisamos é pensar em como estruturar os dados de SC dada a diferença no estilo e formato de texto.

Isso seria interessante ou só um copia e cola do spider do PR com as devidas modificações já bastam?

Se você olhar o spider do PR vai ver que a maior parte das linhas é justamente para estruturar dados que não estão estruturados no site. Por isso acho que não seria um copia e cola. Teriam poucas linhas em comuns (que podemos tornar uma classe única, como discutido na #2), mas o grosso é mesmo estruturação dos dados, e não raspagem em si.

Dito isso, no futuro meu sonho é ter NLP para estruturar as coisas (#4), e deixar o Scrapy apenas para coletar texto bruto. Mas não chegamos no futuro ainda hehehe…

ericovis commented 4 years ago

eu estava entrado aqui agora pra apagar meu comentário kkkkkkkk realmente parece até outro site 🤦

cuducos commented 4 years ago

eu estava entrado aqui agora pra apagar meu comentário

Apaga não! Ele toruxe comentários super importantes para essa issue :purple_heart: