okfn-brasil / queriDO

nosso Querido Diário Oficial
https://okfn-brasil.github.io/queriDO/site
MIT License
18 stars 5 forks source link

converter HTML antes da limpeza #45

Open ppKrauss opened 7 years ago

ppKrauss commented 7 years ago

A inclusão de um arquivo HTML como campo XML no PostgreSQL requer que o conteúdo seja rastreável, vinculado ao original, e que indícios estatísticos de marcação possam ser resgatados. Os principais indícios vem do CSS e da marcação de layout, incluindo formatações sub, sup, bold, italico, etc. que também podem ser transformadas em marcações CSS.

Para tanto o texto original, depois de convertido para XML, precisa ser submetido a um conversor, que leva todas as propriedades CSS para o atributo style de cada tag onde foi previsto o seu uso.

Entre os mais utilizados estão:

Em seguida, depois de eliminadas propriedades espúrias (ex. animação de fontes), um novo CSS é reconstruído — fazendo uso de algoritmos similares ao CSSout — para arquivar como "assinatura de estilo" nas estatísticas, e as marcações básicas (bold, sub, sup, etc.) são realizadas para eliminação final do CSS.


PS: CSSout faz o inverso, leva do CSS-inline para a marcação otimizada.