ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
452 stars 129 forks source link

[코드 오타]p.168 CBOW 모델의 get_sentence_vector 함수에 대해 질문드립니다. #75

Closed HEUNG-BAE-LEE closed 4 years ago

HEUNG-BAE-LEE commented 4 years ago

책에서는 self.average로 작성해 주셔서 책 내용과 동일하게 단순 가중합으로 계산되는 것 같은 데 현재 git repository에 push해 주신 코드에는 Models 파일의 word_utils.py의 CBOW Model class의 get_sentence_vector 함수에서 not self.average로 되어있는 것 같아서 확인 후 수정이나 답변 부탁드리겠습니다!

ratsgo commented 4 years ago

@HEUNG-BAE-LEE 님 이슈 올려주셔서 감사드립니다. 현재 CBOWModel class의 average 기본 인자가 False여서 평균 벡터가 리턴되지 않는 방식으로 작동하고 있는데요. word_utils.py를 수정해서 해당 인자를 켜고(True) 끌 수 있도록 수정하였습니다. 다음과 같이 수행하시면 average 방식으로 작동합니다.

python models/word_utils.py \
   --train_corpus_path data/processed/processed_ratings_train.txt \ 
   --test_corpus_path data/processed/processed_ratings_test.txt \ 
   --embedding_corpus_path data/tokenized/corpus_mecab.txt \ 
   --embedding_path data/word-embeddings/word2vec/word2vec \ 
   --output_path data/word-embeddings/cbow/word2vec  \
   --embedding_name word2vec \
   --method cbow \
   --is_weighted True \
   --average True