scieloorg / PC-Programs

SciELO PC Programs
7 stars 24 forks source link

A conversão de entidades HTML falha em algumas situações #3228

Closed joffilyfe closed 4 years ago

joffilyfe commented 4 years ago

Descrição do problema

Ao executar a conversão de pacotes SPS a classe Entity2Char[1] não é capaz de converter algumas entidades que foram introduzidas de forma errada no XML.

Por exemplo, as entidades < e > deveriam ser convertidas para < e >.

Entity2Char https://github.com/scieloorg/PC-Programs/blob/ebd1c759007982440a402c018a38d0341ae70892/src/scielo/bin/xml/prodtools/utils/xml_utils.py#L28

Passos para reproduzir o problema

  1. Baixe o pacote [1];
  2. Configure o XC;
  3. Execute a conversão do pacote [1]
  4. Observe que a conversão falha porque a entidade > é convertida para > e isto quebra o XML;

Comportamento esperado

Espera-se que a conversão seja executada com sucesso e que o XML esteja bem formado.

Screenshots ou vídeos

N/A

Anexos

[1] - Pacote SPS

Ambiente utilizado

Linux 64 bits

robertatakenaka commented 4 years ago

@scieloorg/scielo-brazil-developers : Considerações 1) Há testes e eles devem passar sem alterações nos testes 2) Se o XML contivesse < no lugar de < ou > no lugar de > o programa não quebra 3) Esta classe tem o propósito de "corrigir" eventuais defeitos nas entidades. Mas acabou não tratando < e >

Captura de Tela 2020-06-12 às 17 56 52
robertatakenaka commented 4 years ago

@patymori acrescento que deve existir uns testes além dos já existentes:

  1. < -> <
  2. > -> >
  3. < -> <
  4. > -> >