Open milantokic opened 3 years ago
pokusati bazicno sa gensim modelom bez stemminga i lematizacije, umesto all_sim da je for petlja stavi ball tree i kd tree a dodati for petlju za pravljenje matrice Nx300.
treba imati bazican slucaj, sa stemmingom, sa lemmatizacijom i tfidf model.
Uzeti iz TFIDF IDF komponentu i pomnoziti sa svaki vektor sa tezinom te reci. Ovim se smanjuje uticaj reci koje se stalno ponavljaju.
koje biblioteke koji word2vec (gensim, glove)
implementirati word2vec na tom corpusu i uporediti sa tfidf i cv. 1) pitanje -> lematizacija (stemming) -> tokenizacija pitanja (tf, idf)
2)pitanje -> lematizacija (stemming) -> word2vec -> sumirati vektore u pitanju (dobije se jedan vektor) vise nacina -> gleda se eucledian distance sa ostalim pitanjima i onda gledati slicnost sa ostalim pitanjima