okfn-brasil / HTML5-onlyContent

A content tag suite for XML or HTML formats, expressing "only content".
0 stars 1 forks source link

Acrescentar exemplo de algoritmos de normalização e limpeza #4

Closed ppKrauss closed 6 years ago

ppKrauss commented 6 years ago

Como a formatação XHTML5 pode ser analisada por ferramentas de XML, e tem menos variações que HTML5, pode-se convencionar que o XHTML5-onlyContent é o formato padrão para a preservação digital e a comparação de documentos (garantia de diff mais consistente no versionamento).

Rodar o removedor de tags onlyContent-filter.xsl, ou algo similar com DOMDocument da Libxml2, para remover comentários e tags. Normalização C14N principalmente para espaços e atributos.

ppKrauss commented 6 years ago

Examples of /src folder are working fine.

ppKrauss commented 6 years ago

The normalization of "pretty HTML" (human-readable source) is not implemented, needs a reliable generator to pipe after C14N.