scieloorg / opac-airflow

Componente de coleta e identificação das alterações realizadas nos metadados do SciELO
BSD 2-Clause "Simplified" License
3 stars 11 forks source link

Possível imagens com baixa qualidade após re-processamento dos artigo. #297

Open gitnnolabs opened 3 years ago

gitnnolabs commented 3 years ago

Descrição do problema

Diante do tíquete: https://github.com/scieloorg/packtools/issues/269#issuecomment-898061500

Verificamos que o arquivo no minio já está com a qualidade inferior, veja: https://minio.scielo.br/documentstore/2176-6681/R6CDRTvbnhdQYcC49ngNKwD/f9f60ec859f9c523a8ae6a9e62b95c5985518274.jpg

O mesmo arquivo no site antigo está com a qualidade superior: https://old.scielo.br/img/revistas/rbeped/v102n260//2176-6681-rbeped-102-260-43-gch1.jpg

Olhando na migração existe uma garantia de que as imagens que serão optimizadas é somente as images do tipo .tif.

Fazendo um trace pelo documente store migração é possível comprovar isso:

https://github.com/scieloorg/document-store-migracao/blob/master/documentstore_migracao/utils/build_ps_package.py#L449

Utiliza uma função do packtools que valida se é uma imagem para ser ou não otmizada:

def is_image_to_optimise(image):

https://github.com/scieloorg/packtools/blob/1f720c3d1cad00359a51a9b6e058a401c24746d6/packtools/utils.py#L489

Agora o opac-ariflow utiliza essa função do packtools que não realiza essa validação:

https://github.com/scieloorg/packtools/blob/1f720c3d1cad00359a51a9b6e058a401c24746d6/packtools/utils.py#L775

def optimise(self, new_package_file_path=None, preserve_files=True):

Avaliar e testar se as imagens em um re-processamento está baixando de qualidade.

gitnnolabs commented 3 years ago

@robertatakenaka

Realizei localmente testes referente a essa atividade utilizando o pacote que a @RPostalli me enviou e constatei que não acontece e suspeito dizer que seria impossível.

Explico-me: No arquivo XML está "fixado" o endereço do .tif, dessa forma não seria possível reprocessar imagens que não sejam as imagens que estão "fixadas" no XML.

Reprocessei o pacote e o processamento otimizou da mesma forma as imagens.

Considero que o PR: https://github.com/scieloorg/opac/pull/2028 resolve a maioria dos problemas com as imagens.

@robertatakenaka podemos combinar de solicitar para a equipe(produção) avaliar se a partir de agora as imagens estão nos padrões esperados e dessa forma podemos, por hora, fechar essas atividades ligadas a qualidade das imagens?