Open JaTvoiRabotnik opened 7 years ago
Além dessa documentação básica, sugiro (talvez outra issue) descrever "em alto nível" os algoritmos e a metodologia. Também podemos usar a Wiki: tem rascunho com detalhes metodologicos, para buscar consensos e alinhamentos.
... Agora temos originais com UTF8 confiável para aplicar reconhecimento de estrutura e filtragem. Usei clean2.php
para limpar, o algortimo pode ser facilmente portado para Python.
Ver por exemplo a matéria 117148 com https://okfn-brasil.github.io/queriDO/ em modo "filtrado" e "original": a primeira dúvida é quanto aos metadados de identificação da matéria, falta recuperar "Data de publicação" e "Matéria nº" ou esse dado já confiável pelo filename? Como usar os metadados listados no CSV correspodente?
Com relação ao seu segundo e terceiro parágrafo acima, tem como criar um novo issue pra isso?
Para facilitar a colaboracao, aconselho que seja criado um guia de como rodar o codigo localmente. Que scripts rodar, em que ordem, quais ferramentas sao necessarias, versao de Python, etc.
Idealmente, poderiamos ate providenciar uma imagem no Docker para que nao haja conflitos de environment.