SKTBrain / KoBERT

Korean BERT pre-trained cased (KoBERT)
Apache License 2.0
1.3k stars 368 forks source link

[BUG] 이모티콘도 tokenizer가 가능한가요? #90

Closed herokim97 closed 2 years ago

herokim97 commented 2 years ago

🐛 Bug

기존 예제를 모두 실행 하여 정상적인 결과를 뽑았습니다. 이에 진행중인 프로젝트에 적용시키고 싶어, 학습 데이터를 따로 추출하여 적용하였는데, [ TypeError: Argument 'text' has incorrect type (expected str, got int) ] 라는 오류가 발생하였습니다. 예상하기에 추출된 데이터에 이모티콘이 삽입되어 있어 그런 것으로 예상되는데 혹시 이모티콘을 tokenizer 하는 과정에 문제가 발생할 수도 있는지 아시는 분 계시면 말씀해주세요! 감사합니다.

To Reproduce

image

버그를 재현하기 위한 재현절차를 작성해주세요.

    • 기존 ai 허브에서 감성대화 분석 데이터로 학습을 진행함
    • 정상적인 작동 확인
    • 학습 데이터를 교체 후 학습 진행
    • 위의 오류 발생

Expected behavior

Environment

python 버전은 3.7.0 입니다 image

Additional context