lappis-unb / tais

Tais é uma assistente virtual para responder dúvidas dos usuários relacionadas à Lei Rouanet.
https://lappis-unb.github.io/tais/
GNU General Public License v3.0
98 stars 42 forks source link

Sugestão: usar "analyze: char" como parâmetro do "intent_featurizer_count_vectors" #585

Open dielsonsales opened 5 years ago

dielsonsales commented 5 years ago

Não há como garantir que a performance seja melhor para todos os casos, mas eu sugiro que vocês testem esse parâmetro disponível no featurizer que vocês estão usando:

- name: "intent_featurizer_count_vectors"
  analyzer: 'char'
  min-ngram: 3
  max-ngram: 3

Essa abordagem permite que o featurizer do Rasa use caracteres ao invés de palavras inteiras e, dessa forma, fique mais robusto contra variações da escrita ou escrita errada. Geralmente esse tipo de coisa funciona melhor para o português por conta de termos muitas variações para verbos, gênero etc.

RochaCarla commented 5 years ago

Obrigada pela sugestão @dielsonsales. Testamos aqui e realmente é melhor.. vamos commitar e colocar na próxima versão de produção :P