Open alexxxmendonca opened 6 years ago
Bom dia @alexxxmendonca Você poderia deixar explicito quando um documento é considerado "citável"?
Obg!
Juan, não tenho certeza, mas existem regras já definidas para isso, que foram utilizadas no Search SciELO -- há um cluster para isso.
Tem a ver com o documento possuir título, autores, resumo, referências etc.
Dê uma olhada na regra desse cluster do Search.
@jamilatta pode dar um help aqui com as regras definidas no cluster do search indicado pelo alex?
@jfunez
Para o search os documentos consideráveis citáveis são os documento com os seguintes tipos: https://github.com/scieloorg/search-journals/blob/beta/proc/updatesearch/pipeline_xml.py#L43
Repare na linha: https://github.com/scieloorg/search-journals/blob/beta/proc/updatesearch/pipeline_xml.py#L122, caso o documento seja algum desses tipos ele é considerado citável.
@jamilatta os links estão quebrados. @alexxxmendonca De qualquer forma, é importante ter uma regra explícita para o site que seja independente da regra para o search ou para qualquer outra aplicação ou contexto. Por exemplo, com a modalidade nova Provisional PDF, existe a possibilidade de não haver referências marcadas. Ele é ou não citável? A questão aqui, acho que não definir se o documento é ou não citável, mas se ele deve ter ou não destaque nesta lista.
Um documento considerável citável no search:
https://github.com/scieloorg/search-journals/blob/master/proc/updatesearch/pipeline_xml.py#L43
Pelo que entendi um documento é citável(no contexto do search) quando tem os seguintes campos:
CITABLE_DOCUMENT_TYPES = (
u'article-commentary',
u'brief-report',
u'case-report',
u'rapid-communication',
u'research-article',
u'review-article'
)
@jamilatta e @alexxxmendonca se é pelo tipo então está ótimo
@alexxxmendonca , poderia validar se está OK?
@patymori qual ambiente? Produção ou homologação?
@alexxxmendonca , produção.
Hummm, não sei se tenho condições de avaliar.
Como identificar no texto completo se um documento é considerável por nós citável ou não citável?
Na página do periódico Cadernos Pagu, por exemplo, os últimos documentos da lista não aparentam ser documentos citáveis e mesmo assim estão aparecendo na lista:
https://new.scielo.br/journal/cpa/
Links dos documentos: https://new.scielo.br/article/cpa/2018.n54/e185400/ https://new.scielo.br/article/cpa/2018.n54/e185401/
Porém não me sinto em condições de aprovar esse ticket.
@alexxxmendonca
Acredito que precisamos definir primeiro que é um documento citável, antes de aprovar esse ticket.
Será que, por exemplo, a Solange, você e nós podemos definir isso e institucionalizar!.
@jamilatta já não há uma regra no search para isso? https://github.com/scieloorg/opac/issues/885#issuecomment-437310811
Sim, mas baseado no comentário que você fez parece que não é o suficiente :-), veja:
Na página do periódico Cadernos Pagu, por exemplo, os últimos documentos da lista não aparentam ser documentos citáveis e mesmo assim estão aparecendo na lista
De acordo com a Renata, não dá para dizer se é citável ou não "a olho nu".
Não tenho condições de validar esse ticket.
Acredito que até que tenhamos bem claro o que é um documento citável é desnecessário aprovar esse ticket.
Um documento citável é aquele que pra sua base tem importância para métricas, cada base de dados utiliza os tipos de documentos que querem como citáveis, com base em suas políticas. O Web of Science por exemplo só considera: Article 'research-article' Review 'review-article' Proceedings paper
Já SciELO Citation Index considera o mesmo que nós no Analytics u'article-commentary', u'brief-report', u'case-report', u'rapid-communication', u'research-article', u'review-article'
Nós consideramos todos os documentos indexados em SciELO como citáveis, segundo instruções do próprio Abel e publicado nos Critérios SciELO Brasil item 5.2.2. (Com exceção de Errata e Retratação, documentos nascidos sem autoria e são apenas informativos.)
Com as novas regras de indexação promovidas pelos Critérios, só publicamos documentos que obrigatoriamente possuam 5 itens: 1 Autoria; 2 Afiliação; 3 Título (diferente da seção); 4 Citação; 5 Referência.
Como todo boa regra, esta possui suas exceções e também foram discutidas com o Abel em reunião presencial, onde:
Arquivo de Imagem (usado mais em revistas de ciências da saúde) Libera sem citação
Artigo de vídeo (usado mais em revistas de ciências da saúde) Libera sem citação
Entrevista Libera sem citação
Tradução de artigo Só libera publicação quando for documento histórico
Ou seja, na minha opinião nosso Analytics a partir da publicação dos novos Critérios (em 2017) deveria considerar todos os tipos indexáveis em SciELO como documentos citáveis. E por este motivo o feed site deve mostrar todos os artigos mais recentes menos Erratas e Retratações.
Apenas fica a pergunta aqui: Quem decidiu a lista a abaixo como citável para Analytics? u'article-commentary', u'brief-report', u'case-report', u'rapid-communication', u'research-article', u'review-article
@RPostalli essa lista foi o Abel quem definiu.
@alexxxmendonca eu acho que essa definição mudou depois dos critérios. Veja Critérios:
5.2.2. Tipos de documentos A partir de 2018, somente serão indexados, publicados e incluídos nas métricas de desempenho dos periódicos da Coleção SciELO Brasil, documentos que apresentem conteúdo científico relevante, com autoria e afiliação institucional dos autores, título próprio diferente do título da seção, citações e referências bibliográficas.
O melhor seria conversar com ele.
@RPostalli optamos por seguir esta lista e não a dos critérios porque há artigos que poderiam não ter os 5 ítens:
como por exemplo os provisional pdf
O objetivo maior deste issue, é dar destaque a alguns tipos de documentos. Então, acredito que seguir esta lista é um critério aceitável.
Se o motivo é dar destaque só para artigos citáveis e o nossa política adota que 6 tipos são citáveis, adotem está regra para criar um feed automático utilizando artigos com estes @article-type.
Como disse para o @alexxxmendonca, não é possível extrair este dado a olho nu, ele está marcado no XML e não aparece na interface, ou seja, não tem como ser algo manual. A não ser que abram XML por XML para verificar o tipo de artigo marcado.
O feed de "Artigos mais recentes" deve mostrar apenas documentos consideráveis "citáveis":