davidkim205 / translation

11 stars 3 forks source link

komt-1810k-test 데이터 모델별 번역 및 bleu score 평가 #9

Closed sudog1 closed 7 months ago

sudog1 commented 7 months ago

7 에서 모델별 번역 데이터를 results/에 추가

추가 변경사항

  1. "다음 xx 특허명세서를 xx로 번역하세요" 라는 지시어가 있어서, translation2.py에서 "다음 문장을 xx로 번역하세요" => "xx로 번역하세요" 로 바꾸었습니다
  2. kiwi 토크나이저가 영문자의 경우 토큰화를 이상하게 하는 문제가 있어서, 영어 번역을 평가할 땐 기존 nltk의 word_tokenizer를 사용했습니다