Sugiro criar uma funcao aqui para limpar stopwords do contexto antes de enviar para a OpenAI, isso diminuiria o custo em tokens enviados.
Algo como:
from functools import lru_cache
from nltk import word_tokenize
from nltk.corpus import stopwords
@lru_cache(maxsize=1024)
def clean_up_stopwords(message: str) -> str:
stop_words = set(stopwords.words("portuguese"))
tokens = word_tokenize(message)
return " ".join(token for token in tokens if token.lower() not in stop_words)
Sugiro criar uma funcao aqui para limpar stopwords do contexto antes de enviar para a OpenAI, isso diminuiria o custo em tokens enviados.
Algo como:
_Originally posted by @rdenadai in https://github.com/milharal-dev/nemli-nemlerei-bot/pull/5#discussion_r1688704626_