scieloorg / opac

SciELO - On-line Public Access Catalog - OPAC
BSD 2-Clause "Simplified" License
9 stars 22 forks source link

"Artigos mais recentes" deve mostrar apenas documentos citáveis #885

Open alexxxmendonca opened 6 years ago

alexxxmendonca commented 6 years ago

O feed de "Artigos mais recentes" deve mostrar apenas documentos consideráveis "citáveis":

image

jfunez commented 6 years ago

Bom dia @alexxxmendonca Você poderia deixar explicito quando um documento é considerado "citável"?

Obg!

alexxxmendonca commented 6 years ago

Juan, não tenho certeza, mas existem regras já definidas para isso, que foram utilizadas no Search SciELO -- há um cluster para isso.

Tem a ver com o documento possuir título, autores, resumo, referências etc.

Dê uma olhada na regra desse cluster do Search.

jfunez commented 6 years ago

@jamilatta pode dar um help aqui com as regras definidas no cluster do search indicado pelo alex?

jamilatta commented 6 years ago

@jfunez

Para o search os documentos consideráveis citáveis são os documento com os seguintes tipos: https://github.com/scieloorg/search-journals/blob/beta/proc/updatesearch/pipeline_xml.py#L43

Repare na linha: https://github.com/scieloorg/search-journals/blob/beta/proc/updatesearch/pipeline_xml.py#L122, caso o documento seja algum desses tipos ele é considerado citável.

robertatakenaka commented 5 years ago

@jamilatta os links estão quebrados. @alexxxmendonca De qualquer forma, é importante ter uma regra explícita para o site que seja independente da regra para o search ou para qualquer outra aplicação ou contexto. Por exemplo, com a modalidade nova Provisional PDF, existe a possibilidade de não haver referências marcadas. Ele é ou não citável? A questão aqui, acho que não definir se o documento é ou não citável, mas se ele deve ter ou não destaque nesta lista.

jamilatta commented 5 years ago

Um documento considerável citável no search:

https://github.com/scieloorg/search-journals/blob/master/proc/updatesearch/pipeline_xml.py#L43

Pelo que entendi um documento é citável(no contexto do search) quando tem os seguintes campos:

CITABLE_DOCUMENT_TYPES = (
    u'article-commentary',
    u'brief-report',
    u'case-report',
    u'rapid-communication',
    u'research-article',
    u'review-article'
)
robertatakenaka commented 5 years ago

@jamilatta e @alexxxmendonca se é pelo tipo então está ótimo

patymori commented 5 years ago

@alexxxmendonca , poderia validar se está OK?

alexxxmendonca commented 5 years ago

@patymori qual ambiente? Produção ou homologação?

patymori commented 5 years ago

@alexxxmendonca , produção.

alexxxmendonca commented 5 years ago

Hummm, não sei se tenho condições de avaliar.

Como identificar no texto completo se um documento é considerável por nós citável ou não citável?

Na página do periódico Cadernos Pagu, por exemplo, os últimos documentos da lista não aparentam ser documentos citáveis e mesmo assim estão aparecendo na lista:

image

https://new.scielo.br/journal/cpa/

Links dos documentos: https://new.scielo.br/article/cpa/2018.n54/e185400/ https://new.scielo.br/article/cpa/2018.n54/e185401/

Porém não me sinto em condições de aprovar esse ticket.

jamilatta commented 5 years ago

@alexxxmendonca

Acredito que precisamos definir primeiro que é um documento citável, antes de aprovar esse ticket.

Será que, por exemplo, a Solange, você e nós podemos definir isso e institucionalizar!.

alexxxmendonca commented 5 years ago

@jamilatta já não há uma regra no search para isso? https://github.com/scieloorg/opac/issues/885#issuecomment-437310811

jamilatta commented 5 years ago

Sim, mas baseado no comentário que você fez parece que não é o suficiente :-), veja:

Na página do periódico Cadernos Pagu, por exemplo, os últimos documentos da lista não aparentam ser documentos citáveis e mesmo assim estão aparecendo na lista
alexxxmendonca commented 5 years ago

De acordo com a Renata, não dá para dizer se é citável ou não "a olho nu".

Não tenho condições de validar esse ticket.

jamilatta commented 5 years ago

Acredito que até que tenhamos bem claro o que é um documento citável é desnecessário aprovar esse ticket.

RPostalli commented 5 years ago

Um documento citável é aquele que pra sua base tem importância para métricas, cada base de dados utiliza os tipos de documentos que querem como citáveis, com base em suas políticas. O Web of Science por exemplo só considera: Article 'research-article' Review 'review-article' Proceedings paper

Já SciELO Citation Index considera o mesmo que nós no Analytics u'article-commentary', u'brief-report', u'case-report', u'rapid-communication', u'research-article', u'review-article'

Nós consideramos todos os documentos indexados em SciELO como citáveis, segundo instruções do próprio Abel e publicado nos Critérios SciELO Brasil item 5.2.2. (Com exceção de Errata e Retratação, documentos nascidos sem autoria e são apenas informativos.)

Com as novas regras de indexação promovidas pelos Critérios, só publicamos documentos que obrigatoriamente possuam 5 itens: 1 Autoria; 2 Afiliação; 3 Título (diferente da seção); 4 Citação; 5 Referência.

Como todo boa regra, esta possui suas exceções e também foram discutidas com o Abel em reunião presencial, onde:

Ou seja, na minha opinião nosso Analytics a partir da publicação dos novos Critérios (em 2017) deveria considerar todos os tipos indexáveis em SciELO como documentos citáveis. E por este motivo o feed site deve mostrar todos os artigos mais recentes menos Erratas e Retratações.

RPostalli commented 5 years ago

Apenas fica a pergunta aqui: Quem decidiu a lista a abaixo como citável para Analytics? u'article-commentary', u'brief-report', u'case-report', u'rapid-communication', u'research-article', u'review-article

alexxxmendonca commented 5 years ago

@RPostalli essa lista foi o Abel quem definiu.

RPostalli commented 5 years ago

@alexxxmendonca eu acho que essa definição mudou depois dos critérios. Veja Critérios:

5.2.2. Tipos de documentos A partir de 2018, somente serão indexados, publicados e incluídos nas métricas de desempenho dos periódicos da Coleção SciELO Brasil, documentos que apresentem conteúdo científico relevante, com autoria e afiliação institucional dos autores, título próprio diferente do título da seção, citações e referências bibliográficas.

O melhor seria conversar com ele.

robertatakenaka commented 5 years ago

@RPostalli optamos por seguir esta lista e não a dos critérios porque há artigos que poderiam não ter os 5 ítens:

como por exemplo os provisional pdf

O objetivo maior deste issue, é dar destaque a alguns tipos de documentos. Então, acredito que seguir esta lista é um critério aceitável.

RPostalli commented 5 years ago

Se o motivo é dar destaque só para artigos citáveis e o nossa política adota que 6 tipos são citáveis, adotem está regra para criar um feed automático utilizando artigos com estes @article-type.

Como disse para o @alexxxmendonca, não é possível extrair este dado a olho nu, ele está marcado no XML e não aparece na interface, ou seja, não tem como ser algo manual. A não ser que abram XML por XML para verificar o tipo de artigo marcado.