Consistência entre o processamento e as bases de dados

Após o processamento de transformação dos artigo vimos muitas inconsistências, ver e-mail enviado em 06/05/2017:


Coleção processada: Saúde Pública

Quantidades de periódicos: 19
Quantidade de fascículos: 1.995
Quantidade de artigos: 35.813

Números pós processamento:

Quantidade de ativos(todos os ativos cadastrados no SSM): 50.666 (IMG, PDF, HTML, XML)
Quantidade de buckets(Buckets no SSM representa fascículos): 1.858
Quantidade de artigos na versão HTML: 5.228 (São artigos que foram obtidos através do texto completo no Article Meta)
Quantidade de artigos na versão XML: 9.219 (São artigos que estão utilizando XML e que foram obtidos no sistema de arquivo do servidor de homologação)
Quantidade de imagens cadastradas: 3.635
Quantidade de pdfs cadastrados: 37.806

Reparem que a quantidade de artigos cadastrado é bastante inferior a quantidade total de artigo: 

35.813 - (5.228 + 9.219) = 35.813 - 14.447 = 21.366 artigos faltantes.

Isso significa que todos os ativos desses ~22M artigos não foram cadastrados no SSM ainda!, portanto a quantidade de ativos cadastrados deve crescer assim que descobrirmos o motivo dessa diferença.

A quantidade de pdfs é aceitável temos 35.813 considerando que temos as traduções... em princípio devemos ter um total de mais pdfs do que artigos, porém não sabemos o valor exato :-().

Para que possamos rastrear é necessário termos esses números da fonte (Isis ou Article Meta), acredito que realizando uma introspeção na base de dados do SciELO Saúde Pública seria uma boa idéia, Roberta poderia, por gentileza, nos ajudar a tirar alguns números da base de dados do SciELO Saúde Pública?, segue as perguntas que podemos fazer para a base de dados: 

Quantidade de artigos na versão XML? 
Quantidade de artigos na versão HTML?
Quantidade total de pdfs indicados na base?

Creio que isso pode nos ajudar!

Em paralelo acredito que o Fabio possa nos ajudar a verificar se o article meta esta entregando todos os HTML, para isso separei alguns PID que são indicados pelo processamento que não contém o conteúdo do artigo, segue: 

S0102-311X2008000300020
S1135-57272008000400005
S0042-96862011001000016
S0042-96862012000500010
S0042-96862010000800011
S0042-96862010000300011
S0042-96862011000300008
S0042-96862012001200011
S0042-96862002000300011
S0042-96862009000500011
S1413-81232005000400015
S1413-81232005000400021
S1413-81232005000400024
S1413-81232005000400026
S1135-57272004000500006
S0102-311X2012001000015
S1413-81232005000500028
S1413-81232005000500016
S1413-81232005000500007
S1413-81232005000500030
S1413-81232005000400027
S1413-81232005000500029
S1413-81232006000100011
S1413-81232009000200028
S1413-81232005000500015
S1413-81232005000500014
S1413-81232011001200022
S1413-81232011001300016
S1413-81232011001200026
S1413-81232011001300012
S1413-81232011001300015
S1413-81232011001200025
S1413-81232011001300023
S1413-81232011001300024
S1413-81232011001300019
S1413-81232011001300026
S1413-81232011001300018
S1413-81232011001300030
S1413-81232011001300027
S1413-81232011001300036
S1413-81232011001300031
S1413-81232011001300028
S1413-81232011001300035
S1413-81232012000100008
S1413-81232012000100005
S1413-81232012000100007
S1413-81232012000100009
S1413-81232012000100012
S1413-81232012000100011
S1413-81232012000100016

OBS.: Esse processamento é o processamento completo, ou seja foi realizado todas as fases do ETL para todos os artigos da coleção Saúde Pública.

Devemos fazer um script simples para analizar os retornos e as inconsistências apresentadas pelas fontes ou pelo próprio processamento.

scieloorg / opac_proc

Consistência entre o processamento e as bases de dados #141