Closed JaTvoiRabotnik closed 7 years ago
@JaTvoiRabotnik, a sua colocação faz sentido... Para continuar a discussão talvez precisemos de algum aprofundamento:
A perspectiva é ir além da coleta automática de conteúdos desejados... É fazer um pouco de "trabalho braçal" sobre os HTMLs, então esse trabalho não pode ser perdido.
Exemplo: com auxílio de regular expressions, polimento dos dados, etc. é que chegaremos em bons resultados, de modo que os HTMLs não ressurgirão magicamente de um só click, precisam ser preservados.
Os "dados" da pasta html formam um text corpus, é uma questão metodológica e de disciplina para monitoramento das falhas e da evolução dos algoritmos.
OOPS, você sumiu com a pasta! (e eu já aprovei o sumisso ;-)
A OKFn ainda não possui mecanismos de preservação de dados (vide algo sério como LOCKSS ou pelo menos IPFS)... Então se o governo pisa na bola ou muda as "regras do jogo", tudo fica perdido. Hoje a única coisa que garante certa preservação é o LexML, mas são apenas metadados, ele não armazena HTML.
Compreendido.
Algo a se colocar na documentacao da metodologia entao, vide issue 6
Nao concordo com isso. Acho que aqui no repositorio deveriamos manter somente o codigo fonte. Vide o outro issue falando de Hosting.