cuducos / fio-de-ariadne

🪁 Structuiring data on missing kids in Brazil
https://fio-de-ariadne.herokuapp.com/
GNU General Public License v3.0
77 stars 16 forks source link

Melhorar qualidade dos dados: processamento de linguagem natural? #4

Open cuducos opened 4 years ago

cuducos commented 4 years ago

A lógica de raspagem dos dados depende de uma estrutura textual adotada pelo Paraná, o que faz com o que as chances do mesmo script funcionar para estados que não adotam padrão algum nos posts ser baixíssima.

Faz sentido e é factível consideramos abandonar o esquema de expressão regular e testar NLP? Temos volume de dados (categorizados e não categorizados) para isso?

guilhermevanzinhoffmann commented 4 years ago

Faz sentido sim. Posso verificar essa parte.

cuducos commented 4 years ago

Excelente! Eu não sou expert em PLN, então acharia ótimo se alguém explorasse essa parte :purple_heart:

hsteinshiromoto commented 3 years ago

Olha @guilhermevanzin, posso te ajudar com esta parte, também.