scieloorg / search-journals

iAHx Search Interface for SciELO
http://search.scielo.org
BSD 2-Clause "Simplified" License
3 stars 13 forks source link

Atualiza a versão do indexador Solr 5.5.5 para 8.5.1 #510

Closed jamilatta closed 4 years ago

jamilatta commented 4 years ago

O que esse PR faz?

Atualiza a versão do indexador Solr 5.5.5 para 8.5.1

Onde a revisão poderia começar?

Principalmente pelos arquivo de definição de campos e os tokenizadores de cada tipo de campo.

Como este poderia ser testado manualmente?

docker-compose -f docker-compose-dev.yml build
docker-compose -f docker-compose-dev.yml up -d 

Utilizar o processamento do repositório: https://github.com/scieloorg/search-journals-proc para indexar alguma das coleções.

Algum cenário de contexto que queira dar?

Foi adicionado um arquivo de stopwords e de sinônimos.

Essa alteração foi necessário diante da necessidade de aumentarmos a quantidade de memória para o indexador, algo que não funciona na versão anterior.

Para validar esse PR sugiro que seja realizado algumas pesquisas na instância local e comparar resultados com a instância em prdução https://search.scielo.org.

Screenshots

N/A

Quais são tickets relevantes?

https://github.com/scieloorg/search-journals/issues/511

Referências

N/A

rafaelpezzuto commented 4 years ago

@jamilatta Realizei alguns testes e constatei que:

  1. O novo Solr está diferenciando caracteres acentuados. Por exemplo, uma busca pelo termo "dimensão" retorna resultados diferentes de uma busca pelo termo "dimensao"

  2. Ao utilizar o índice livre (tw), o número de resultados encontrados na versão nova difere do encontrado na versão antiga. Isso ocorre por causa da remoção de stopwords. Explico:

Ao buscar "da silva", de forma livre, encontrei 181 documentos na coleção argentina no solr antigo vs 460 documentos na coleção argentina no solr novo. Esse é um caso de exceção, lógico, mas é bom para ilustrar como a nova versão pode se comportar.

Como o "da" é desconsiderado no solr novo, mais resultados são encontrados.

Diria que é preciso, independentemente das necessidades de otimização, verificar se esse é um comportamento desejado

jamilatta commented 4 years ago

@rafaelpezzuto estou indexando os dados no ambiente de homologação com o Solr novo e irei verificar os pontos apontados.

jamilatta commented 4 years ago

@rafaelpezzuto

A questão da acentuação está corrido no ambiente de homologação: http://homolog.search.scielo.org

@scieloorg/scielo-ps-developers por gentileza testar a intância de homologação seguindo o guia: https://docs.google.com/document/d/1ivzTGaoK_5qs91ZhndqPYmGSPW_Qyl8CqrKgCEimVSs/edit

gustavofonseca commented 4 years ago

@jamilatta, qual o status deste PR? Nós fizemos os testes seguindo o guia conforme o comentário https://github.com/scieloorg/search-journals/pull/510#issuecomment-642623858. E agora, quais os próximos passos?

jamilatta commented 4 years ago

@gustavofonseca podemos aprovar! Não há nada que nós impeça da atualização em produção da versão é independente de utilizamos ou não as citação, também não existe qualquer problemas termos os campos mencionado pelo @rafaelpezzuto.

Irei dá procedimento para a atualização em produção!