scieloorg / pcp

BSD 2-Clause "Simplified" License
0 stars 1 forks source link

XPM - Gerar arquivos com texto completo traduzido para PMC #13

Open RPostalli opened 3 months ago

RPostalli commented 3 months ago

O PMC já aceita textos traduzidos, portanto o XPM deve manter os idiomas traduzidos no XML PMC em <sub-article>.

As regras para XML PMC Multi-Language Articles pode ser observado no link: https://www.ncbi.nlm.nih.gov/pmc/pmcdoc/tagging-guidelines/article/dobs.html#dob-multi-lang

O PMC aguarda o envio de uma pequena amostra com os XMLs PMC em mais de um idioma para análise.

Solicitar testes para @nathaliarosa

nathaliarosa commented 2 months ago

@robertatakenaka

O XPM está gerando o <sub-article> das traduções no XML corretamente, mas notamos que, quando o idioma em <article> não é o inglês, o XPM exclui os PDFs e imagens do pacote, deixando apenas o XML.

Isso acontece para artigos que tem ou não tradução e o idioma em <article> não é o inglês.

Exemplos:

Artigo somente em português - pacote SciELO scielo 0104-5970-hcsm-31-e2024021_pacoteScielo.zip

Artigo somente em português - pacote PMC pmc 0104-5970-hcsm-31-e2024021_pacotePMC.zip

Artigo em português com tradução em inglês - pacote SciELO scielo_t 1678-4464-csp-40-05-PT169123_pacoteScielo.zip

Artigo em português com tradução em inglês - pacote PMC pmc_t 1678-4464-csp-40-05-PT169123_pacotePMC.zip

O XPM deve gerar o pacote com todos os arquivos que estão nele (XML, PDF, imagens, etc), independente do idioma principal do artigo, ou seja, do idioma marcado em <article>.

PSI @RPostalli

RPostalli commented 2 months ago

@robertatakenaka enquanto você aplica essa correção mencionada pela @nathaliarosa, eu já envie hoje 11/06 ao PMC a amostra com os artigos em inglês com tradução em outros idiomas e aguardarei análise do XML PMC gerado. Te informo assim que possível.

robertatakenaka commented 2 months ago

@nathaliarosa se o article é em inglês todas as imagens etc entram no pacote? Não será um desenvolvimento rápido fazer esta alteração. Estimativa: julho

nathaliarosa commented 2 months ago

@robertatakenaka sim, quando o <article> é em inglês (tendo ou não traduções) todos os PDFs e imagens são gerados e entram no pacote. Quando o <article> está em português ou espanhol (tendo ou não traduções) só é gerado o XML, os outros arquivos são excluídos do pacote.

nathaliarosa commented 2 months ago

@robertatakenaka

Após a mudança para o XPM gerar o <sub-article> nos XMLs PMC, vimos que a tag <mixed-citation> está sendo gerada nas referências em todos os XMLs PMC.

Descrição do problema o elemento <mixed-citation> está sendo gerado dentro de <ref> em todos os XMLs PMC.

Passos para reproduzir o problema

  1. Acessar o XPM na WinTS.
  2. Selecionar um lote que possua arquivo XML com referências.
  3. Gerar o pacote PMC no XPM.
  4. Observe que os XMLs gerados pelo XPM possuem a tag <mixed-citation> dentro de <ref>.

Comportamento esperado Em <ref> é esperado que o XPM retire automaticamente o elemento <mixed-citation>, mantendo somente a marcação detalhada dentro de <element-citation>.

Screenshots

Print de XML com erro - com a tag <mixed-citation>

image

Print de XML mostrando o comportamento esperado pelo XPM - sem a tag <mixed-citation>, apenas a marcação detalhada dentro de <element-citation> image

PSI @RPostalli