scieloorg / opac-airflow

Componente de coleta e identificação das alterações realizadas nos metadados do SciELO
BSD 2-Clause "Simplified" License
3 stars 11 forks source link

Material suplementar nova rota e carga #315

Open gitnnolabs opened 2 years ago

gitnnolabs commented 2 years ago

Descrição da tarefa

Atualmente estamos armazenando os dados do material suplementar no mínio, “kernel”, porém não estamos disponibilizando uma forma de acessar esse conteúdo através do site.

Subtarefas

Considerações e notas

Este issue impactará no fluxo completo, logo em todas os repos envolvidos: opac_schema, packtools, opac-airflow, opac. No entanto, não deve impactar em reeditar os arquivos nem XML nem pdf. E implicará em reprocessar a partir do airflow.

Para execução da atividade de capacitar o opac-airflow é importante para execução os seguintes links e documentos:

gitnnolabs commented 2 years ago

Exemplo dos dados do material suplementar no opac_schema:

        "mat_suppl" : [
            {
                "ref_id": "suppl01",
                "lang" : "10.1590/S0103-50532006000200001",
                "url" : "https://minio.scielo.br/documentstore/2237-9622/d6DyD7CHXbpTJbLq7NQQNdq/5d88e2211c5357e2a9d8caeac2170f4f3d1305d1.pdf"
                "filename": "suppl01.pdf"
            },
            {
                "ref_id": "suppl02",
                "lang" : "10.1590/S0103-505320060002000002",
                "url" : "https://minio.scielo.br/documentstore/2237-9622/d6DyD7CHXbpTJbLq7NQQNdq/5d88e2211c5357e2a9d8caeac2170f4f3d1305d2.pdf"
                "filename": "suppl02.pdf"
            },
            {
                "ref_id": "suppl03",
                "lang" : "10.1590/S0103-50532006000200003",
                "url" : "https://minio.scielo.br/documentstore/2237-9622/d6DyD7CHXbpTJbLq7NQQNdq/5d88e2211c5357e2a9d8caeac2170f4f3d1305d3.pdf
                "filename": "suppl03.pdf"
            },
        ]
gitnnolabs commented 2 years ago

Olhando um XML pré-processamento, verifiquei que não temos o caminho completo para o material suplementar:

Captura de Tela 2022-02-18 às 10 12 01

gitnnolabs commented 2 years ago

Olhando o Kernel e considerando que no XML temos somente o nome do artigo, não compensa realizar qualquer alteração no momento de inclusão do XML e/ou no Kernel.

A ideia é pegar a partir do kernel no momento de sincronização com o site:

Captura de Tela 2022-02-18 às 13 38 16

gitnnolabs commented 2 years ago

@robertatakenaka @RPostalli

Importante: Nessa solução para o material suplementar é necessário no nome do arquivo a presença do termo "suppl".