ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
452 stars 129 forks source link

p.160 코드 4-40(visualize t-SNE) 문의드립니다. #117

Closed nateray42 closed 3 years ago

nateray42 commented 3 years ago

image

WordEmbeddingEvaluator 를 import하여 코드를 실행했을 때, 이렇게 정제되지 않은 태그들도 함께 나오는 것을 보아 mecab tokenizer 작동이 되지 않은 듯 한데, 혹시 제가 놓친 무언가가 있는가 여쭤보고 싶습니다.

현재, 코드 4-32부터 순차적으로 진행한 상태입니다.

환경 : OS : Window 10 2004 WSL2 Ubuntu Docker-CE IDE : Jupyter notebook (Docker Container 내부에 설치됨) GPU : GTX 1070 Memory : RAM 32G CPU : Ryzen 3070X

ratsgo commented 3 years ago

@nateray42 님 질문해 주셔서 감사드립니다. 윈도우 기반 도커 환경은 제가 직접 테스트하기가 어려워서요ㅠ 이슈 추적을 위해 토큰화 테스트를 한번 수행해 주실 수 있을까요? 도커 컨테이너에서 python을 입력해 파이썬 콘솔을 켠 뒤 다음과 같이 입력하면 됩니다.

from konlpy.tag import Mecab
tokenizer = Mecab()
tokenizer.morphs("안녕하세요")

위 코드처럼 입력하면 안녕하세요를 mecab으로 토큰화하게 됩니다. 이외 다른 테스트 문장도 넣으면 해당 문장 토큰화도 살펴볼 수 있습니다.