okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

Onde manter artefatos #9

Closed JaTvoiRabotnik closed 7 years ago

JaTvoiRabotnik commented 7 years ago

Objetivo 4: Criar convençoes para armazenar aqui no git os originais fornecidos, e os textos processados para recuperação de estrutura.

Nao concordo com isso. Acho que aqui no repositorio deveriamos manter somente o codigo fonte. Vide o outro issue falando de Hosting.

ppKrauss commented 7 years ago

@JaTvoiRabotnik, a sua colocação faz sentido... Para continuar a discussão talvez precisemos de algum aprofundamento:

  1. A perspectiva é ir além da coleta automática de conteúdos desejados... É fazer um pouco de "trabalho braçal" sobre os HTMLs, então esse trabalho não pode ser perdido.
    Exemplo: com auxílio de regular expressions, polimento dos dados, etc. é que chegaremos em bons resultados, de modo que os HTMLs não ressurgirão magicamente de um só click, precisam ser preservados.

  2. Os "dados" da pasta html formam um text corpus, é uma questão metodológica e de disciplina para monitoramento das falhas e da evolução dos algoritmos.
    OOPS, você sumiu com a pasta! (e eu já aprovei o sumisso ;-)

  3. A OKFn ainda não possui mecanismos de preservação de dados (vide algo sério como LOCKSS ou pelo menos IPFS)... Então se o governo pisa na bola ou muda as "regras do jogo", tudo fica perdido. Hoje a única coisa que garante certa preservação é o LexML, mas são apenas metadados, ele não armazena HTML.

JaTvoiRabotnik commented 7 years ago

Compreendido.

Algo a se colocar na documentacao da metodologia entao, vide issue 6