milharal-dev / nemli-nemlerei-bot

Um bot de discord para criar resumos baseado nas últimas mensagens de um canal
8 stars 1 forks source link

Limpar texto de stopwords pra economizar tokens #8

Closed ryukinix closed 1 month ago

ryukinix commented 1 month ago
          Suggestion:

Sugiro criar uma funcao aqui para limpar stopwords do contexto antes de enviar para a OpenAI, isso diminuiria o custo em tokens enviados.

Algo como:

from functools import lru_cache

from nltk import word_tokenize
from nltk.corpus import stopwords

@lru_cache(maxsize=1024)
def clean_up_stopwords(message: str) -> str:
    stop_words = set(stopwords.words("portuguese"))
    tokens = word_tokenize(message)
    return " ".join(token for token in tokens if token.lower() not in stop_words)

_Originally posted by @rdenadai in https://github.com/milharal-dev/nemli-nemlerei-bot/pull/5#discussion_r1688704626_