scieloorg / articles_meta

Webservices para recuperar metadados de artigos SciELO armazenados no MongoDB
BSD 2-Clause "Simplified" License
7 stars 17 forks source link

[DOI] Possibilitar de registrar DOI para arquivos HTML #173

Closed robertatakenaka closed 4 years ago

robertatakenaka commented 5 years ago

Possibilitar registrar DOI para artigo (HTML) que não possui DOI

Eu, como [tipo de cargo/ usuário / papel em sistema], gostaria que o DOI Manager pudesse gerar a partir do PID os DOI de artigos registrados em HTML que não possuem indicação de DOI, então os artigos da BAR - v8n4 teriam seus DOI registrados no CrossRef.

Histórico

Os registros da base ISIS, de documentos HTML, não contém o DOI, cadastrado. O DOI era formado pelo prefixo fornecido pelo CrossRef + PID (se o artigo foi registrado quando ahead o DOI tem que ser mantido com o PID do ahead).

O sistema de registro do CrossRef não dá um feedback instantâneo. Os pedidos de registro ficam numa fila. O único jeito que sabemos se um DOI realmente foi registrado é acessando o link do DOI.

Os problemas são:

Critérios de aceitação

Conseguir sistematicamente registrar DOI de documentos HTML

Anexos

N/A

Referências

N/A

joffilyfe commented 4 years ago

@robertatakenaka, iniciei esta atividade realizando uma análise prévia sobre quais problemas nós possuímos na base de dados do Articlemeta que são relacionados diretamente com o DOI dos artigos. O resultado preliminar pode ser visto em https://github.com/joffilyfe/scielo-experiments/blob/master/notebook-analise-checagem-de-doi-scl.ipynb.

Agora é preciso definir o que de fato faremos com os problemas encontrados, uma vez que ficou relativamente fácil encontrar problemas e sistematizar essa varredura.

robertatakenaka commented 4 years ago

@joffilyfe Em 3 - Resolução de DOI, o DOI pode ter sido gerado com o PID do ahead ou não. No caso do documento ter os 2 PIDs, sugiro testar com os 2 PIDs. Acrescente esta informação no "pontos foram elencados"

No mais, sugiro, abrir issues ou cards para tratar do que foi concluído.

gustavofonseca commented 4 years ago

@robertatakenaka, iniciei esta atividade realizando uma análise prévia sobre quais problemas nós possuímos na base de dados do Articlemeta que são relacionados diretamente com o DOI dos artigos. O resultado preliminar pode ser visto em https://github.com/joffilyfe/scielo-experiments/blob/master/notebook-analise-checagem-de-doi-scl.ipynb.

Agora é preciso definir o que de fato faremos com os problemas encontrados, uma vez que ficou relativamente fácil encontrar problemas e sistematizar essa varredura.

Excelente análise, parabéns =]

A @robertatakenaka colocou um ponto importante sobre o possível uso do PID do ahead.

Aqueles 1.338 documentos com prefixo SciELO, armazenados na base de dados mas que não foram depositados no Crossref, nós podemos depositar todos tão logo a gente tenha uma lista dos PIDs v2 separados por quebra de linha.

joffilyfe commented 4 years ago

@joffilyfe Em 3 - Resolução de DOI, o DOI pode ter sido gerado com o PID do ahead ou não. No caso do documento ter os 2 PIDs, sugiro testar com os 2 PIDs. Acrescente esta informação no "pontos foram elencados"

No mais, sugiro, abrir issues ou cards para tratar do que foi concluído.

Obrigado @robertatakenaka, já estou iniciando o reprocessamento dos nossos dados.

Excelente análise, parabéns =]

A @robertatakenaka colocou um ponto importante sobre o possível uso do PID do ahead.

Aqueles 1.338 documentos com prefixo SciELO, armazenados na base de dados mas que não foram depositados no Crossref, nós podemos depositar todos tão logo a gente tenha uma lista dos PIDs v2 separados por quebra de linha.

@gustavofonseca está na mão https://drive.google.com/open?id=1bVFCOueY0MtlMTwYHZmbQlQLCcwaSdvc. Esta lista foi gerada a partir do comando cat resultados/doi.csv | grep ";0;0" | grep "10.1590" | cut -d ";" -f1, também poderíamos salvar a tabela que está exposta no notebook.

gustavofonseca commented 4 years ago

Boa, valeu ;)

gustavofonseca commented 4 years ago

Aqui está um relatório, em csv, sobre o resultado do depósito dos 1338 documentos no Crossref. Spoiler: apenas 75 foram depositados com sucesso.

joffilyfe commented 4 years ago

Aqui está um relatório, em csv, sobre o resultado do depósito dos 1338 documentos no Crossref. Spoiler: apenas 75 foram depositados com sucesso.

No caso destes outros 1263, nós devemos encaminhar para que o setor de produção analise cada caso?

gustavofonseca commented 4 years ago

Sim, aparentemente todos os outros dependerão de análise e ação junto aos editores. Estou agrupando os problemas no documento https://docs.google.com/document/d/1zhZBePSnDcu99IUQThOcDNpEyi-vgthcpGTPJIdpLCs/edit?usp=sharing (privado para @scielo.org).

joffilyfe commented 4 years ago

@ednilson com base nas dicas que você me deu eu consegui chegar nos casos de DOI repetidos. Atualizei o notebook e adicionei a lista de casos no documento produzido pelo @gustavofonseca.

@gustavofonseca e @robertatakenaka eu acredito que já fizemos o que poderia ser feito de forma automatizada. Agora dependemos que a produção resolva os casos que precisam de intervenção manual. O que vocês acham de fecharmos a issue e abrir uma nova (em qual repo?) para que possamos auxiliar a produção nas resoluções dos problemas?

robertatakenaka commented 4 years ago

O que vocês acham de fecharmos a issue e abrir uma nova (em qual repo?)

Acho que será resolvido em https://github.com/scieloorg/Web/issues/713