WordEmbeddingTuner.make_input() 버그

ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)

MIT License

455 stars 130 forks source link

@hccho2 님 오류 제보 정말 감사드립니다. 말씀하신 것이 정확합니다. 다음과 같습니다.

[UNK] id : len(self.vocab)
[PAD] id : len(self.vocab) + 1

그런데 기존 코드에서는 make_input이 호출될 때마다 self.vocab의 길이(len)를 확인하는 비효율이 발생하므로, 실제 실행 코드에서는 unk id와 pad id를 클래스 변수로 빼두는 쪽으로 개선하였습니다. (전자/종이)책에는 코드의 핵심을 보는게 더 중요하므로 token_ids.extend([len(self.vocab) + 1] * (max_token_length - tokens_length)) 이대로 표시를 해두었습니다. 한편 attention을 포함해 해당 버그까지 반영한 점수는 51번 이슈에 공유드리겠습니다. 관심 가져주셔서 진심으로 감사드립니다.

ratsgo / embedding

WordEmbeddingTuner.make_input() 버그 #53