ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
455 stars 130 forks source link

p81 코드3-2 실행시 에러 #86

Closed buillee closed 4 years ago

buillee commented 4 years ago

in_f = "kowiki-latest-pages-articles.xml.bz2" out_f = "processed_wiki_ko.txt" output = open(out_f, 'w') wiki = WikiCorpus(in_f, tokenizer_func=tokenize, dictionary=Dictionary()) i = 0 for text in wiki.get_texts(): output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n') i = i + 1 if (i % 10000 == 0): print('Processed ' + str(i) + ' articles') output.close() print('Processing complete!')

위의 코드를 실행하면 다음과 같은 에러 메시지가 뜹니다. 이유는 무엇일까요?


NameError Traceback (most recent call last)

in 2 out_f = "processed_wiki_ko.txt" 3 output = open(out_f, 'w') ----> 4 wiki = WikiCorpus(in_f, tokenizer_func=tokenize, dictionary=Dictionary()) 5 i = 0 6 for text in wiki.get_texts(): NameError: name 'tokenize' is not defined
ratsgo commented 4 years ago

@buillee 님 안녕하세요. 해당 이슈는 다음 이슈에서 해결 방안을 확인할 수 있습니다. 혹시 문제가 해결되지 않을 경우 별도 이슈에 기록해 주시면 답변해 드리겠습니다! 감사합니다.