Closed jamilatta closed 4 years ago
@jamilatta Realizei alguns testes e constatei que:
O novo Solr está diferenciando caracteres acentuados. Por exemplo, uma busca pelo termo "dimensão" retorna resultados diferentes de uma busca pelo termo "dimensao"
Ao utilizar o índice livre (tw), o número de resultados encontrados na versão nova difere do encontrado na versão antiga. Isso ocorre por causa da remoção de stopwords. Explico:
Ao buscar "da silva", de forma livre, encontrei 181 documentos na coleção argentina no solr antigo vs 460 documentos na coleção argentina no solr novo. Esse é um caso de exceção, lógico, mas é bom para ilustrar como a nova versão pode se comportar.
Como o "da" é desconsiderado no solr novo, mais resultados são encontrados.
Diria que é preciso, independentemente das necessidades de otimização, verificar se esse é um comportamento desejado
@rafaelpezzuto estou indexando os dados no ambiente de homologação com o Solr novo e irei verificar os pontos apontados.
@rafaelpezzuto
A questão da acentuação está corrido no ambiente de homologação: http://homolog.search.scielo.org
@scieloorg/scielo-ps-developers por gentileza testar a intância de homologação seguindo o guia: https://docs.google.com/document/d/1ivzTGaoK_5qs91ZhndqPYmGSPW_Qyl8CqrKgCEimVSs/edit
@jamilatta, qual o status deste PR? Nós fizemos os testes seguindo o guia conforme o comentário https://github.com/scieloorg/search-journals/pull/510#issuecomment-642623858. E agora, quais os próximos passos?
@gustavofonseca podemos aprovar! Não há nada que nós impeça da atualização em produção da versão é independente de utilizamos ou não as citação, também não existe qualquer problemas termos os campos mencionado pelo @rafaelpezzuto.
Irei dá procedimento para a atualização em produção!
O que esse PR faz?
Atualiza a versão do indexador Solr 5.5.5 para 8.5.1
Onde a revisão poderia começar?
Principalmente pelos arquivo de definição de campos e os tokenizadores de cada tipo de campo.
Como este poderia ser testado manualmente?
Utilizar o processamento do repositório: https://github.com/scieloorg/search-journals-proc para indexar alguma das coleções.
Algum cenário de contexto que queira dar?
Foi adicionado um arquivo de stopwords e de sinônimos.
Essa alteração foi necessário diante da necessidade de aumentarmos a quantidade de memória para o indexador, algo que não funciona na versão anterior.
Para validar esse PR sugiro que seja realizado algumas pesquisas na instância local e comparar resultados com a instância em prdução https://search.scielo.org.
Screenshots
N/A
Quais são tickets relevantes?
https://github.com/scieloorg/search-journals/issues/511
Referências
N/A