Como a formatação XHTML5 pode ser analisada por ferramentas de XML, e tem menos variações que HTML5, pode-se convencionar que o XHTML5-onlyContent é o formato padrão para a preservação digital e a comparação de documentos (garantia de diff mais consistente no versionamento).
Rodar o removedor de tags onlyContent-filter.xsl, ou algo similar com DOMDocument da Libxml2, para remover comentários e tags. Normalização C14N principalmente para espaços e atributos.
Como a formatação XHTML5 pode ser analisada por ferramentas de XML, e tem menos variações que HTML5, pode-se convencionar que o XHTML5-onlyContent é o formato padrão para a preservação digital e a comparação de documentos (garantia de
diff
mais consistente no versionamento).Rodar o removedor de tags
onlyContent-filter.xsl
, ou algo similar com DOMDocument da Libxml2, para remover comentários e tags. Normalização C14N principalmente para espaços e atributos.