Popular índices a partir de dados coletados de provedores OAI-PMH #481

Closed gustavofonseca closed 4 years ago

gustavofonseca commented 4 years ago

Atualmente o utilitário updatesearch, responsável por coletar e popular os índices de busca, é capaz apenas de coletar dados do ArticleMeta. Esta capacidade deve ser ampliada de forma que o utilitário também seja capaz de coletar dados desde de provedores de dados OAI-PMH.

O caso de uso que motivou esta atividade é o de viabilizar a indexação de conteúdos publicados na futura plataforma de preprints do SciELO (instância de OPS).


Questões a serem respondidas futuramente

Definição para essa atividade:


alexxxmendonca commented 4 years ago

Deve-se atribuir peso aos registros para que documentos revisados por pares sejam considerados mais relevantes do que os que não foram?

Creio que não. Há toda uma discussão na comunidade sobre o valor dos preprints e o cuidado para não serem considerados "ciência ruim". Penso que devemos pensar em recursos gráficos para deixar bem transparente, nos resultados, que aquele artigo trata-se de um preprint.

Contudo, se um preprint possui vínculo com um artigo revisado por pares e publicado em SciELO (is preprint of), neste caso sim, o peso maior deve vir, sem dúvida, para o artigo publicado em periódico.

robertatakenaka commented 4 years ago

Dados esperados pelo search

        <field name="id">art-S0102-695X2015000100053-scl</field>
        <field name="journal_title">Revista Ambiente & Água</field>
        <field name="in">scl</field>
        <field name="ac">Agricultural Sciences</field>
        <field name="type">editorial</field>
        <field name="ur">art-S1980-993X2015000200234</field>
        <field name="authors">Marcelo dos Santos, Targa</field>
        <field name="ti_*">Benefits and legacy of the water crisis in Brazil</field>
        <field name="pg">234-239</field>
        <field name="doi">10.1590/S0102-67202014000200011</field>
        <field name="wok_citation_index">SCIE</field>
        <field name="volume">48</field>
        <field name="supplement_volume">48</field>
        <field name="issue">7</field>
        <field name="supplement_issue">suppl. 2</field>
        <field name="start_page">216</field>
        <field name="end_page">218</field>
        <field name="ta">Rev. Ambient. Água</field>
        <field name="la">en</field>
        <field name="fulltext_pdf_pt"></field>
        <field name="fulltext_pdf_pt"></field>
        <field name="da">2015-06</field>
        <field name="ab_*">In this editorial, we reflect on the benefits and legacy of the water crisis....</field>
        <field name="aff_country">Brasil</field>
        <field name="aff_institution">usp</field>
        <field name="sponsor">CNPQ</field>

Dados providos por oai-pmh

        <oai-dc:dc xsi:schemaLocation="">
                Soybean productivity in Rhodic Hapludox compacted by the action of furrow openers
            <dc:creator>Trentin,Robson Gonçalves</dc:creator>
            <dc:creator>Modolo,Alcir José</dc:creator>
            <dc:creator>Vargas,Thiago de Oliveira</dc:creator>
            <dc:creator>Campos,José Ricardo da Rocha</dc:creator>
            <dc:creator>Adami,Paulo Fernando</dc:creator>
            <dc:creator>Baesso,Murilo Mesquita</dc:creator>
            <dc:subject>soil density.</dc:subject>
                ABSTRACT. The heavy traffic of machines in no-tillage systems causes problems as soil compaction and loss of crops productivity. The objective of this paper is to evaluate the productivity of soybeans in reference to furrow openers and the levels of soil compaction in two crops. The experiment was conducted on Rhodic Hapludox by tracing random blocks with subdivided parcels. The soil bulk density levels were laid out in the parcels (1.16, 1.20, 1.22, and 1.26 Mg m-3) and the furrowers in the sub-parcels (double disc and shanks). The resistance to penetration, depth of the furrow, mobilized soil area, final plant stands, height of plants, mean number of beans by pod, 1,000 bean mass, number of pods per plant and productivity of the culture were evaluated. The resistance to penetration increased with the levels of soil compaction regardless of the farming year and up to a depth of 0.20 m. In the first crop, higher productivity with the use of the shank was observed. In the second crop, the use of the shank resulted in an increase in depth of the furrow, mobilized soil, height of the plants and final stand of the plants, but this did not indicate an increase in productivity.
                Editora da Universidade Estadual de Maringá - EDUEM
            <dc:source>Acta Scientiarum. Agronomy v.40 2018</dc:source>
    <dc:title xml:lang="en-US">Test Alex</dc:title>
    <dc:creator>Mendonça, Alex</dc:creator>
    <dc:subject xml:lang="en-US">keyword 1</dc:subject>
    <dc:description xml:lang="en-US">adadadasd</dc:description>
    <dc:publisher xml:lang="en-US">SciELO Preprints</dc:publisher>
    <dc:publisher xml:lang="es-ES">SciELO Preprints</dc:publisher>
    <dc:publisher xml:lang="pt-BR">SciELO Preprints</dc:publisher>
    <dc:rights xml:lang="pt-BR">Copyright (c) 2020 Alex Mendonça</dc:rights>
    <dc:rights xml:lang="pt-BR"></dc:rights>
Sem correspondência no SEARCH

Editora da Universidade Estadual de Maringá - EDUEM
robertatakenaka commented 4 years ago

Sem correspondência no OAI PMH

<field name="ac">Agricultural Sciences</field>

<field name="wok_citation_index">SCIE</field>

<field name="pg">234-239</field>

<field name="start_page">216</field>

<field name="end_page">218</field>

<field name="aff_country">Brasil</field>

<field name="aff_institution">usp</field>

<field name="sponsor">CNPQ</field>
<field name="id">art-S0102-695X2015000100053-scl</field>
<field name="ur">art-S1980-993X2015000200234</field>

<dc:source>Acta Scientiarum. Agronomy v.40 2018</dc:source>
<field name="journal_title">Revista Ambiente & Água</field>
<field name="ta">Rev. Ambient. Água</field>
<field name="volume">48</field>
<field name="supplement_volume">48</field>
<field name="issue">7</field>
<field name="supplement_issue">suppl. 2</field>
O valor preprint vai no lugar de scl.

<field name="in">scl</field>

O valor research-article vai no lugra de editorial.

<field name="type">editorial</field>
Criei uma branch chamada preprint com a estrutura inicial para o processamento dos artigo em preprint.

Nesse processamento pensei em somente 2 parâmetro:

-p (Periodicidade em horas) -d (Remove todos os registros do tipo preprint)

Link para a branch:

@robertatakenaka @gustavofonseca

Avaliando o oaiharvest, verifique que teriamos que realizar uma implementação no OAIharvest:harvest, veja:

Porém olhando para outras opções de cliente verifiquei que temos uma opção bastante interessante e que evitaria termos que realizar qualquer implementação.

A biblioteca sickle:

Realizando um teste rápido ficaria assim:

from sickle import Sickle

sickle = Sickle('')

records = sickle.ListRecords(**{'metadataPrefix': 'oai_dc', 'from': '2012-12-12'})

record =


u'<record xmlns="" xmlns:xsi=""><header><identifier>oai:scielo:S0080-62342012000700002</identifier><datestamp>2012-12-12</datestamp><setSpec>0080-6234</setSpec></header><metadata><oai-dc:dc xmlns:oai-dc="" xmlns:dc="" xmlns:xsi="" xsi:schemaLocation=""><dc:title>Atua\xe7\xe3o da enfermeira eleva o controle de hipertensos e diminui o efeito do avental branco</dc:title><dc:creator>Col\xf3simo,Fl\xe1via Cortez</dc:creator><dc:creator>Silva,Stael Silvana Bagno Eleut\xe9rio da</dc:creator><dc:creator>Toma,Gabriela de Andrade</dc:creator><dc:creator>Pierin,Angela Maria Geraldo</dc:creator><dc:subject>Hipertens\xe3o</dc:subject><dc:subject>Determina\xe7\xe3o da press\xe3o arterial</dc:subject><dc:subject>Cuidados de enfermagem</dc:subject><dc:description>Realizou-se estudo comparativo randomizado para avaliar o controle de hipertensos, com uso da medida residencial da press\xe3o arterial (MRPA) e medida casual, bem como para analisar o efeito do avental branco. Hipertensos atendidos em unidades b\xe1sicas de sa\xfade foram divididos aleatoriamente em: grupo I, participante das atividades educativas, e grupo II, que seguiu a rotina de atendimento. Os hipertensos do grupo I realizaram MRPA no in\xedcio e final do estudo. Efeito do avental branco foi avaliado pela diferen\xe7a entre a medida casual e MRPA. Foram inclu\xeddos 290 hipertensos, por\xe9m realizaram MRPA 82 hipertensos. Houve aumento no controle da press\xe3o do in\xedcio ao final do estudo nos hipertensos do grupo I (p &lt; 0,05) avaliado pela MRPA (60% para 68,3%) e pela medida casual (62% para 71%); no grupo II o controle foi maior na MRPA do que na medida casual (63% vs 50%). O efeito do avental branco foi maior no grupo II.</dc:description><dc:rights>info:eu-repo/semantics/openAccess</dc:rights><dc:publisher>Universidade de S\xe3o Paulo, Escola de Enfermagem</dc:publisher><dc:source>Revista da Escola de Enfermagem da USP  v.46 n.spe 2012</dc:source><dc:date>2012-10-01</dc:date><dc:type>info:eu-repo/semantics/article</dc:type><dc:format>text/html</dc:format><dc:identifier>;pid=S0080-62342012000700002</dc:identifier><dc:language>pt</dc:language><dc:relation>10.1590/S0080-62342012000700002</dc:relation></oai-dc:dc></metadata></record>'


<Element {}record at 0x10b298998>

Utilziando como exemplo o OAI do SciELO.

A precição do datestamp do SciELO é até dia, :-(.

Esse record.raw retorna um string do XML e o record.xml nos retorna uma lxml.

A precição do datestamp do SciELO é até dia, :-(.

No caso não será SciELO, mas sim o Pre-Print(PKP), que provavelmente usa hora.

Sim sim.

Exemplo real:

    <dc:title xml:lang="en-US">COVID-19 in Brazil: advantages of a socialized unified health system and preparation to contain cases</dc:title>
    <dc:creator>Croda, Julio</dc:creator>
    <dc:creator>Oliveira, Wanderson Kleber de </dc:creator>
    <dc:creator>Frutuoso, Rodrigo Lins </dc:creator>
    <dc:creator>Mandetta, Luiz Henrique </dc:creator>
    <dc:creator>Baia-da-Silva, Djane Clarys </dc:creator>
    <dc:creator>Brito-Sousa, José Diego </dc:creator>
    <dc:creator>Monteiro, Wuelton Marcelo </dc:creator>
    <dc:creator>Lacerda, Marcus Vinícius Guimarães </dc:creator>
    <dc:subject xml:lang="en-US">COVID19</dc:subject>
    <dc:subject xml:lang="en-US">Brazil</dc:subject>
    <dc:subject xml:lang="en-US">Socialized unified health system</dc:subject>
    <dc:subject xml:lang="en-US">Measures</dc:subject>
    <dc:description xml:lang="en-US">The new Coronavirus, called SARS-CoV-2, whose first cases emerged in Wuhan, China in late December, 2019 and quickly spread to other countries, was declared on January 30, 2020 a public health emergency of international concern by the World Health Organization regional office for Europe. Even before the first COVID-19 cases were identified in Brazil, the country had articulated several measures ranging from the creation of ordinances and laws, to isolation and quarantine. However, the number of cases has increased significantly, requiring new measures, mainly to reduce mortality and worsening of cases. A socialized unified health system (UHS) and the fact that countries in Latin America were among the last ones with reported COVID-19 outbreaks have contributed to anticipated actions. Future outcomes will reflect this early preparation in a country in the Southern Hemisphere with major cultural differences with Asia.</dc:description>
    <dc:publisher xml:lang="en-US">SciELO Preprints</dc:publisher>
    <dc:publisher xml:lang="es-ES">SciELO Preprints</dc:publisher>
    <dc:publisher xml:lang="pt-BR">SciELO Preprints</dc:publisher>
    <dc:rights xml:lang="pt-BR">Copyright (c) 2020 Julio Croda, Wanderson Kleber de  Oliveira, Rodrigo Lins  Frutuoso, Luiz Henrique  Mandetta, Djane Clarys  Baia-da-Silva, José Diego  Brito-Sousa, Wuelton Marcelo  Monteiro, Marcus Vinícius Guimarães  Lacerda</dc:rights>
    <dc:rights xml:lang="pt-BR"></dc:rights>
Em relação as correspondências que comentou somente discordo no último, referente o campo:

<field name="in">scl</field>

O in indica a coleção, acho que devemos mander scl com o objetivo de podermos ter outras coleções com publicação em preprint. Outro compo aqui é tem temos um cluster com as coleção e iria aparece na interface preprint como coleção! .

Acredito que devemos ter um campo que indica que é um documento com publicação do tipo preprint.

Penso que um preprint é um research-article correto?, portando sugiro que o campo <field name="type">editorial</field> deva ser <field name="type">research-article</field>.

Sugiro acrescentar um campo que indica o tipo de publicação: "continua", "regular" e ou "preprint", atualmente não temos esse indicador no índice.

Penso que um preprint é um research-article correto?, portando sugiro que o campo <field name="type">editorial</field> deva ser <field name="type">research-article</field>.

Sim @jamilatta por isso está na seção "FIXAR". Os valores "preprint" ( e "research-article" é o conteúdo que é fixo para todos os documentos.

O in indica a coleção, acho que devemos mander scl com o objetivo de podermos ter outras coleções com publicação em preprint. Outro compo aqui é tem temos um cluster com as coleção e iria aparece na interface preprint como coleção! .

Haverá apenas 1:

Sugiro acrescentar um campo que indica o tipo de publicação: "continua", "regular" e ou "preprint", atualmente não temos esse indicador no índice.

"contínua ou regular" estão relacionadas com o modo de publicação do periódico

"preprint" é o "status" do documento

Não tem relação

Acho sua sugestão válida, para filtrar os preprint, mas talvez não seja necessária ou se sim, pode ser algo para o futuro.

O <field name="type"> se refere ao tipo de documento. O termo preprint não é um tipo de documento, mas sim um "estágio".

@robertatakenaka @gustavofonseca

Estou realizando a implementação da fase da coleta dos dados utilizando o sickle.

"preprint" é o "status" do documento

Dá pra fazer uma ligação do conceito de preprint com o de ahead of print. Ambos caracterizam documentos que ainda não foram publicados formalmente em fascículos, mas o primeiro não passou por revisão por pares e o segundo passou.

@gustavofonseca @robertatakenaka @joffilyfe @patymori

Todos os PipeLines dentre os metadados disponíveis no provedor OAI foram criado, vejam:

Esse é o resultado dos dados no índice:

Screenshot 2020-04-08 14 43 50

Resultado do retorno da pesquisa:

Screenshot 2020-04-08 14 44 38
parece... animador?

@alexxxmendonca sim.

Irei dá procedimento na atividade.... agora quero disponibilizar o resultado dos preprints no ambiente de homologação para que possamos validar o resultado de pesquisa e fazer os ajustes finais.

@alexxxmendonca disponibilizei no ambiente de homologação do search o artigo que esta no Servidor de Preprint, veja:*&lang=pt&count=15&from=1&output=site&sort=&format=summary&fb=&page=1&filter%5Bin%5D%5B%5D=preprint&q=*&lang=pt&page=1

É necessário definir se a apresentação dos preprint será o mesmo que os demais artigos.

@alexxxmendonca disponibilizei no ambiente de homologação do search o artigo que esta no Servidor de Preprint, veja:*&lang=pt&count=15&from=1&output=site&sort=&format=summary&fb=&page=1&filter%5Bin%5D%5B%5D=preprint&q=*&lang=pt&page=1

Muito bom @jamilatta. Um detalhe que percebi: ao clicar no artigo nós somos redirecionados para o search.

Sim @joffilyfe como a interface é bastante alinha a artigo provinientes do SciELO a formação das URLs é para o site clássico.

Essa foi uma primiera fase de ETL para os preprints, a partir de amanhã irei trabalhar em realizar os ajustes na interface para artigo em fase de preprints.

Essa atividade segue agora com os ajustes de interface: #493