scieloorg / search-journals

iAHx Search Interface for SciELO
http://search.scielo.org
BSD 2-Clause "Simplified" License
3 stars 13 forks source link

Resultados sem título #191

Closed alexxxmendonca closed 2 years ago

alexxxmendonca commented 8 years ago

Alguns documentos (Editoriais, erratas) que não possuem título aparecem sem título nos resultados de busca. Exemplo:

image

http://search.scielo.org/?fb=&q=arquivos&lang=pt&count=15&from=1&output=site&sort=&format=summary&page=1&where=&filter%5Byear_cluster%5D%5B%5D=2002

Como lidar com esses casos? Mostrar o nome da seção?

scielo commented 8 years ago

Acho que pode ser mostrado o nome da seção. Lembrando novamente que esse problema já existia na interface anterior.

jamilatta commented 8 years ago

Somente para complementar venho falando desse assunto ha bastante tempo tenho um e-mail datado de 2/2/2015 (quase um ano), ver:

screen shot 2016-01-22 at 17 58 00

... aguardando definição:

screen shot 2016-01-22 at 17 59 37

fabiobatalha commented 8 years ago

@alexxxmendonca

Outra saída é remover esses tipos de documentos do search SciELO. Verifique e nos informe qual será a medida a ser implementada.

alexxxmendonca commented 8 years ago

Consultei o Abel e a orientação dele foi de exibir o título da seção, entre chaves.

Exemplo:

[Editorial] [Errata]

alexxxmendonca commented 8 years ago

Não consegui testar esse em homolog pois como a base não é a mesma da produção. Os registros do print screen não estão lá.

deandr commented 8 years ago

Nos meus ajustes não esta considerado este ticket pois acredito que seja necessário ajuste no processamento para contemplar esta regra.

fabiobatalha commented 8 years ago

@alexxxmendonca, lembrei de uma coisa.

E nos casos onde não existe título do artigo nem título de seção?

Nada é tão simples quanto parece.

alexxxmendonca commented 8 years ago

Rsrs

Existe casos assim? Pode me passar alguns exemplos (links)?

fabiobatalha commented 8 years ago

Sim, vários: http://www.scielo.br/scielo.php?script=sci_issuetoc&pid=0073-472120080002&lng=en&nrm=iso

Este é um exemplo de falta de seções, mas tem títulos. Vou ver se acho um com a falta de ambos.

fabiobatalha commented 8 years ago

@alexxxmendonca

Segue 1 exemplo sem seção e sem título.

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0004-282X1995000100033&lng=en&nrm=iso&tlng=en

Normalemente ocorre com publicações antigas, mas ocorre.

alexxxmendonca commented 8 years ago

Discuti essa questão com o Abel e ele sugeriu listar todos os documentos que não possuem título ou seção e enviar a relação para que a equipe de produção analise.

Em alguns casos poderão ser removidos da base (quando o documento não for um documento publicado por SciELO) e nos demais, deve-se exibir os primeiros 80-100 caracteres seguido de reticências, entre chaves.

Exemplo (no documento http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0004-282X1995000100033&lng=en&nrm=iso&tlng=en):

[CORREÇÃO. Problemas durante o alceamento de ARQUIVOS DE NEURO-PSIQUIATRIA 1994 VOL 52 N° 4 (DEZEMBRO)...]

jamilatta commented 8 years ago

Para listar todos os documentos podemos utiliza o próprio indexado, ver: http://search.scielo.org/?q=-ti%3A*&lang=pt&count=15&from=0&output=site&sort=&format=summary&fb=&page=1

jamilatta commented 8 years ago

Temos 7.967 registros sem título.

alexxxmendonca commented 8 years ago

1.876 da Coleção SciELO Brasil.

fabiobatalha commented 8 years ago

@alexxxmendonca

Não entendi. O que vocês querem dizer com: Quando o documento não for um documento publicado por SciELO?

Até onde sei tudo o que esta no SciELO é publicado por SciELO.

A sugestão:

[CORREÇÃO. Problemas durante o alceamento de ARQUIVOS DE NEURO-PSIQUIATRIA 1994 VOL 52 N° 4 (DEZEMBRO)...]

Não deve funcionar pois quando não temos título também não temos todo o restante dos metadados. O Texto completo não faz parte dos dados da ferramenta de busca, tampouco temos o texto completo disponível sem ser a versão HTML para implementar tal sugestão.

alexxxmendonca commented 8 years ago

Documentos como notícias, obituários etc poderiam ter sido publicado no passado mas não mais -- depois do estabelecimento dos Critérios de Setembro/2014.

fabiobatalha commented 8 years ago

Ok, mas seguem sendo documentos publicados pelo SciELO, mesmo do passado.

Outro ponto, é que obituários e outros tipos de documento que podem não ter metadados completos eram/são classificadas com tipos de documentos genéricos o que nos impede de identificar corretamente do que se trata o documento para implementar qualquer tipo de regra.

Ex: Obituário identificado como editorial http://articlemeta.scielo.org/api/v1/article/?code=S0717-65382014000200010

Obituário identificado como book-review http://articlemeta.scielo.org/api/v1/article/?code=S1794-88862015000100016

Obituário identificado como article-comentary http://articlemeta.scielo.org/api/v1/article/?code=S0718-34022014000100002

Obituário identificado como rapid-communication http://articlemeta.scielo.org/api/v1/article/?code=S0187-73802014000100003

Atualmente devido a adequação de nossos metadados aos padrões internacionais, ao uso da JATS e o SciELO PS, temos a seguinte lista de tipos de documentos válidos, os obituários se encaixam em uma delas.

article_types = {
    'ab': 'abstract',
    'an': 'news',
    'ax': 'addendum',
    'co': 'article-commentary',
    'cr': 'case-report',
    'ct': 'research-article',
    'ed': 'editorial',
    'er': 'correction',
    'in': 'editorial',
    'le': 'letter',
    'mt': 'research-article',
    'nd': 'undefined',
    'oa': 'research-article',
    'pr': 'press-release',
    'pv': 'editorial',
    'rc': 'book-review',
    'rn': 'brief-report',
    'ra': 'review-article',
    'sc': 'rapid-communication',
    'tr': 'research-article',
    'up': 'undefined'
}

@alexxxmendonca, por favor, verifique, quais os tipos de documentos desta lista devem fazer parte do search, mesmo removendo alguns tipos de documentos, ainda sim teremos problemas para apresentar documentos com metadados incompletos.

O ideal em relação a apresentação é não indexar conteúdos que não possuam os metadados mínimos. Título, abstract, volume, número, ano de publicação.

alexxxmendonca commented 8 years ago

Documentos sem título devem ser indicados como "[DOCUMENTO SEM TÍTULO]" no lugar do título -- traduzir para os 3 idiomas.

Publica-se os metadados disponíveis, cuidando de evitar-se pontuações desnecessárias.

alexxxmendonca commented 8 years ago

Trocar legenda em inglês de:

DOCUMENT WITHOUT TITLE

Para:

UNTITLED DOCUMENT

deandr commented 8 years ago

Rótulo corrigido e atualizado no ambiente de homologação.

alexxxmendonca commented 8 years ago

Testado e aprovado em http://homolog.search.scielo.org/

alexxxmendonca commented 7 years ago

Novo caso relacionado:

image

http://homolog.search.scielo.org/?q=%28subject%3A%28filosofia%29%29&lang=pt&page=1

alexxxmendonca commented 2 years ago

O caso reportado acima foi corrigido.