milantokic / NLP_Chatbot

0 stars 0 forks source link

Implement word2vec #1

Open milantokic opened 3 years ago

milantokic commented 3 years ago

koje biblioteke koji word2vec (gensim, glove)

implementirati word2vec na tom corpusu i uporediti sa tfidf i cv. 1) pitanje -> lematizacija (stemming) -> tokenizacija pitanja (tf, idf)

2)pitanje -> lematizacija (stemming) -> word2vec -> sumirati vektore u pitanju (dobije se jedan vektor) vise nacina -> gleda se eucledian distance sa ostalim pitanjima i onda gledati slicnost sa ostalim pitanjima

milantokic commented 3 years ago

pokusati bazicno sa gensim modelom bez stemminga i lematizacije, umesto all_sim da je for petlja stavi ball tree i kd tree a dodati for petlju za pravljenje matrice Nx300.

treba imati bazican slucaj, sa stemmingom, sa lemmatizacijom i tfidf model.

milantokic commented 3 years ago

Uzeti iz TFIDF IDF komponentu i pomnoziti sa svaki vektor sa tezinom te reci. Ovim se smanjuje uticaj reci koje se stalno ponavljaju.