in_f = "kowiki-latest-pages-articles.xml.bz2"
out_f = "processed_wiki_ko.txt"
output = open(out_f, 'w')
wiki = WikiCorpus(in_f, tokenizer_func=tokenize, dictionary=Dictionary())
i = 0
for text in wiki.get_texts():
output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
i = i + 1
if (i % 10000 == 0):
print('Processed ' + str(i) + ' articles')
output.close()
print('Processing complete!')
위의 코드를 실행하면 다음과 같은 에러 메시지가 뜹니다.
이유는 무엇일까요?
NameError Traceback (most recent call last)
in
2 out_f = "processed_wiki_ko.txt"
3 output = open(out_f, 'w')
----> 4 wiki = WikiCorpus(in_f, tokenizer_func=tokenize, dictionary=Dictionary())
5 i = 0
6 for text in wiki.get_texts():
NameError: name 'tokenize' is not defined
in_f = "kowiki-latest-pages-articles.xml.bz2" out_f = "processed_wiki_ko.txt" output = open(out_f, 'w') wiki = WikiCorpus(in_f, tokenizer_func=tokenize, dictionary=Dictionary()) i = 0 for text in wiki.get_texts(): output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n') i = i + 1 if (i % 10000 == 0): print('Processed ' + str(i) + ' articles') output.close() print('Processing complete!')
위의 코드를 실행하면 다음과 같은 에러 메시지가 뜹니다. 이유는 무엇일까요?
NameError Traceback (most recent call last)