scieloorg / articles_meta

Webservices para recuperar metadados de artigos SciELO armazenados no MongoDB
BSD 2-Clause "Simplified" License
7 stars 17 forks source link

Correção ao carregar body com código html que contém `<http://URI>` no lugar de `&lt;http://URI&gt;` #223

Closed robertatakenaka closed 3 years ago

robertatakenaka commented 3 years ago

Descrição do problema

Alguns documentos em HTML possuem defeitos no código HTML original, por exemplo:

no lugar de ter &lt;http://www.ico.org/historical.asp&gt; 12 July 2005<http://www.ico.org/historical.asp> 12 July 2005.

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0104-87752008000100005 Note que <http://www.ico.org/historical.asp> fica oculto na página.

28 Os dados sobre os preços de produtores foram retirados de Historical Data series. International Coffee Organization. 12 July 2005. Os preços de produtores de Costa Rica foram usados para ilustração; o preço para outros produtores da América Latina podem ter tido variações, mas todos seguiram a mesma tendência. 

Ao serem carregados https://github.com/scieloorg/articles_meta/blob/af3a3db11a2a8a70ee16fff5bc64d1df6dbe1793/processing/load_body.py#L152

Transforma <http://www.ico.org/historical.asp> em <http:/>

Passos para reproduzir o problema

  1. Executar o "processing" para S0104-87752008000100005
  2. Clique no link ...
  3. Role a página até ...
  4. Observe o erro apresentado

Comportamento esperado

Transformar <http://www.ico.org/historical.asp> em &lt;http://www.ico.org/historical.asp&gt;

Screenshots ou vídeos

n/a

Anexos

n/a

Ambiente utilizado

n/a

Referências

https://github.com/scieloorg/document-store-migracao/issues/388 https://github.com/scieloorg/document-store-migracao/issues/388#issuecomment-735748831 https://docs.google.com/document/d/1DrRPArvm8pzpuwRzbZQV3H7q3YoQ9dPH10BhfK89Uko/edit#heading=h.fx6oyfpefnte