kakao / khaiii

Kakao Hangul Analyzer III
Apache License 2.0
1.41k stars 284 forks source link

알 수 없는 KhaiiiExcept가 발생합니다. #52

Closed dancing-with-coffee closed 5 years ago

dancing-with-coffee commented 5 years ago

안녕하세요.

khaiii ver 0.3을 사용하고 있는데요. 다른 텍스트 파일들은 잘되는데, 한국어 위키피디아 텍스트에 대해서만 계속해서 KhaiiiExcept가 발생합니다.

해당 텍스트 라인은 이렇습니다.

"이런 상황에서 정몽준의 국민통합21에 입당하기 위한 김민석의 탈당은 노무현에게 반전의 계기가 되었다."

그리고 실행할때마다 전에 되던 라인에서 다시 죽을 때도 있고, 아닐 때도 있습니다.

데이터와 코드는 보안상 이슈로 공개할 수 없어 직접 타이핑하여 대신 공유합니다.

screen shot 2019-02-18 at 1 29 31 pm

from khaiii import KhaiiiApi

morph_analyzed_corpus_list = [] api = KhaiiiApi()

for idx in tqdm_notebook(range(len(corpus_list))): line = corpus_list[idx] temp = api.analyze(line) morph_analyzed_corpus_list.append(temp)

============================================== 시스템 상황은,

ubuntu 16.04 Anaconda 4.5.12 python3.7 khaiii 0.3

입니다. 다른 정보가 더 필요하시면 추가로 공유하겠습니다.

krikit commented 5 years ago

위에 예로 드신 문장은 제가 돌려보면 오류가 발생하지 않습니다. 실제 오류가 발생하는 상황을 보지 못하면 저도 도와드리기 힘든데요. 아래 코드를 analyze.py 파일로 저장하신 다음,

from khaiii import KhaiiiApi, KhaiiiExcept
import sys

api = KhaiiiApi()
for line_num, line in enumerate(sys.stdin, start=1):
    try:
        api.analyze(line.rstrip('\r\n'))
    except KhaiiiExcept as khaiii_except:
        print(str(khaiii_except))
        print('{}: {}'.format(line_num, line))

오류가 발생하는 입력 파일을 input.txt라고 하고, 다음과 같이 실행해서 오류가 확실히 발생하는 입력을 첨부해주시면 제가 테스트가 가능할 것 같습니다.

python3 ./analyze.py < input.txt
dancing-with-coffee commented 5 years ago

실행한 결과 파일 첨부하여드립니다.

하지만, 오류 결과가 아무것도 없어서 그냥 line number랑 빈 줄 뿐입니다ㅠ

screen shot 2019-02-18 at 4 55 28 pm screen shot 2019-02-18 at 4 56 14 pm

output.txt

krikit commented 5 years ago

아.. 저는 입력을 원했던 건데요. wikipedia_170501_cleaned.txt 파일 중 오류가 발생하는 부분을 추려서 올려주실 수 있을까요? 출력은 어차피 제쪽에서 오류가 똑같이 난다면 확인이 가능할테니까요.

dancing-with-coffee commented 5 years ago

다시 확인해보니까, 저 output.txt 파일자체가 맞네요. 입력이 아무것도 없을때 나는 어이없는 에러였습니다. 데이터를 불러오는 모듈쪽에서 데이터가 날아가는 코드 오류가 있었네요.

해결하였습니다. 도와주셔서 감사합니다.