scieloorg / document-store-migracao

Document Store (Kernel) - Migração
BSD 2-Clause "Simplified" License
1 stars 6 forks source link

[conversão] Ao acessar um URI que contém mais de uma cerquilha ocorre uma interrupção da conversão #421

Closed robertatakenaka closed 3 years ago

robertatakenaka commented 3 years ago

Descrição do problema

The exception 'too many values to unpack (expected 2)' was raised.

 File "/Users/roberta.takenaka/github.com/scieloorg/document-store-migracao/documentstore_migracao/utils/convert_html_body.py", line 4057, in _imported_html_file
   href, anchor = href.split("#")
ValueError: too many values to unpack (expected 2)

Passos para reproduzir o problema

  1. Execute a conversão para:
  1. Observe o erro apresentado

Comportamento esperado

Analisar porque existe mais de uma cerquilha (caracter #) no URI que pode ser um artifício da conversão. Ajustar o código de forma que a conversão ocorra corretamente e que não ocorra exceções.

Screenshots ou vídeos

n/a

Anexos

n/a

Ambiente utilizado

n/a

patymori commented 3 years ago

@scieloorg/scielo-brazil-developers Nos 3 casos o HTML já está com as duas cerquilhas, não foi resultando de erro na conversão. Parece que houve algum erro na marcação. O último, inclusive, tem o link /img/revistas/hb/v31n3/html/10f03.htm##f3a. Penso que a correção poderia ir para o caminho da preservação do link original, para que o documento possa ser publicado no site, e que todos entrem para lista de correções manuais.

patymori commented 3 years ago

@scieloorg/scielo-brazil-developers Nos 3 casos o HTML já está com as duas cerquilhas, não foi resultando de erro na conversão. Parece que houve algum erro na marcação. O último, inclusive, tem o link /img/revistas/hb/v31n3/html/10f03.htm##f3a. Penso que a correção poderia ir para o caminho da preservação do link original, para que o documento possa ser publicado no site, e que todos entrem para lista de correções manuais.

Esta parte da conversão somente captura a uri do arquivo HTML, ignorando âncoras. Portanto, o comentário anterior pode ser ignorado, já que o caminho para o html aqui não será utilizado como link.