Closed nayohan closed 2 months ago
안녕하세요, 번역 리더보드에 참여해 주셔서 감사합니다. 우선 평가 데이터셋에는 영->한, 한->영 번역이 모두 포함되어 있기 때문에 요청하신 모델로는 제한적인 평가만이 가능했음을 알려드립니다. 한->영 번역 데이터는 제외되었으며, self-bleu 평가는 재번역이 필요하기 때문에 평가되지 않았습니다. 평가의 공정성을 위해 기존 리더보드의 모델에서 영한 번역 점수만을 추출하여 비교하였습니다.
model | bleu | count |
---|---|---|
papago | 0.46 | 96 |
deepl | 0.42 | 96 |
0.41 | 96 | |
davidkim205/iris-7b | 0.41 | 96 |
azure | 0.41 | 96 |
maywell/Synatra-7B-v0.3-Translation | 0.36 | 96 |
nayohan/llama3-instrucTrans-enko-8b | 0.35 | 96 |
squarelike/Gugugo-koen-7B-V1.1 | 0.35 | 96 |
Unbabel/TowerInstruct-7B-v0.1 | 0.3 | 96 |
jbochi/madlad400-10b-mt | 0.3 | 96 |
facebook/nllb-200-distilled-1.3B | 0.26 | 96 |
model | bleu | count |
---|---|---|
deepl | 0.65 | 75 |
davidkim205/iris-7b | 0.6 | 75 |
nayohan/llama3-instrucTrans-enko-8b | 0.58 | 75 |
0.54 | 75 | |
azure | 0.52 | 75 |
maywell/Synatra-7B-v0.3-Translation | 0.52 | 75 |
squarelike/Gugugo-koen-7B-V1.1 | 0.5 | 75 |
papago | 0.49 | 75 |
facebook/nllb-200-distilled-1.3B | 0.31 | 75 |
Unbabel/TowerInstruct-7B-v0.1 | 0.28 | 75 |
jbochi/madlad400-10b-mt | 0.26 | 75 |
@sudog1 님 번역성능을 평가해주셔서 감사합니다.😃 덕분에 모델에 대해 좀더 객관적으로 살펴볼 수 있을 것 같습니다! 아직 개선해야할 부분이 많아보이네요. 평가해주신 내용 참고해서 개선해보겠습니다. 감사합니다!
안녕하세요. 검색 중 번역 리더보드를 발견해 번역 성능 평가를 요청드리려고 이슈남깁니다. model_name : nayohan/llama3-instrucTrans-enko-8b (영어 -> 한글 만 동작)
기본 llama3 chat template을 그대로 사용하였고, 위와 같은 코드로 동작합니다. 감사합니다.