cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

bigrams #52

Closed Cristiananc closed 3 years ago

Cristiananc commented 4 years ago

Em bigrams.py temos o início de uma implementação do tutorial.

Algumas coisas que observei é que estamos com essas saídas que não reconhecem acentos: (b'Obras', b'P\xc3\xbablicas') (b'Sa\xc3\xbade', b'-')

Além disso, podemos adcionar alguns parâmetros extras no Phrases.

Sobre o n-grams mencionado no comentário, podemos tentar utilizar o módulo ngram do nltk. Sobre "word embeddings" tem algumas referências que estou lendo aqui: http://web.stanford.edu/class/cs224n/index.html#schedule.

arademaker commented 3 years ago

este issue será fechado, com a saída da Cristiana, focamos em outras frentes.