okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

consertar e expandir getMateria (e outras consideracoes gerais) #12

Closed JaTvoiRabotnik closed 7 years ago

JaTvoiRabotnik commented 7 years ago

O script getMateria.py precisa ser consertado e expandido. Ele faz uso dos metadados que foram gerados pelo getHtm.py para saber o link das materias que tem que ser coletadas.

Eu sugiro que a gente faca uma compartimentalização melhor dos scripts, e que tanto o getHtm.py quanto o getMateria.py aceitem parametros que digam quais edicoes e materias exatamente queremos extrair. Isso por que no momento ta tudo hardcoded.

Infelizmente nao existe um relacionamento logico entre o numero da edicao e a data. Entao eu vou sugerir um outro script, que seria o ponto incial da automacao que, sabendo qual e a ultima edicao a ser extraida, tenta numeros subsequentes ate receber alguma informacao, e entao segue a fazer uma verificacao se a data de fato bate com o esperado. Uma vez sabido qual e a edicao, o getHtm.py pode ser chamado, passando essa edicao como parametro. Ai, o getMateria.py e chamado, passando os metadados como parametros. A partir dai a gente pode comecar a colocar as materias numa estrutura XML ou uma base de dados (ou ambos).

JaTvoiRabotnik commented 7 years ago

Ugh... o HTML que a gente pega deles e nojento... Ele tem mais de uma tag de <head>, e diversas outras anormalidades. O parser ta tendo um trabalhao pra entender o que ta acontecendo, e vou ter que dar uma ajuda pra ele.

JaTvoiRabotnik commented 7 years ago

OK, os ultimos pull requests acho que resolvem esse issue. Vou considera-lo fechado agora. getMateria e getHtm podem ser chamados como funcoes ou como scripts stand-alone.