Easy Data Augmentation 논문과 이를 바탕으로 한 korEDA 라이브러리를 사용
Synonym Replacement 를 제외한 나머지는 문장 원형의 변형이 너무 심하기 때문에 사용을 보류함
Backtranslation
[googletrans]
처음에는 pororo 사용하려고 했으나 종속 라이브러리 버전 이슈로 설치 실패
googletrans 라이브러리 사용 -> 종종 알 수 없는 error 발생
에러는 단위 시간 내에 많은 api 호출량을 보였기 때문으로 예상, sleep을 iteration 중간에 넣고 df를 row 500개 단위로 쪼갬
해당 방법으로 어느 정도 해결되었으나, 아직도 간간히 에러가 발생 (아직 해결 방법 못 찾음)
[t5]
ke-t5 를 base로 번역 태스크를 위해 finetuning된 KETI-AIR-Downstream/long-ke-t5-base-translation-aihub-ko2en, KETI-AIR-Downstream/long-ke-t5-base-translation-aihub-en2ko 모델 사용해서 ENG -> KOR, KOR -> ENG 번역 진행 중
Category
Background
EDA
Backtranslation
[googletrans]
[t5]
To do
Expected behavior
References