Closed Kingthegarden closed 2 years ago
정리 감사합니다! 현훈님 학습 결과가 기대되네요.
토큰 추가 문제
근데 토큰 추가 문제가 후처리로 해결할 수 있는 거라고 보는게 맞을까요?? 오히려 깨진 단어를 후처리로 고치는걸 제안하는게 낫지 싶습니다.
아하 전처리 과정이라고 봐야겠네요 ㅎㅎ
우선 의학용어 관련 토큰 아이디어가 정말 괜찮아 보였는데, 성능 향상이 없다니 너무 아쉽네요. 다시 생각해보면 token 갯수가 ~M으로 굉장히 큰 dimension을 가지고 있는데, 거기다가 Token 몇 개 추가해서 그게 제대로 모델에 학습이 되지 않는다면 오히려 다른 token들의 혼란만 가중시킬 것 같네요. (뇌피셜입니다만^^)
정답 후처리는 좋은 방법인 것 같습니다. 다른 notebook에도 나와있구요. 얼른 실험 결과 및 가중치 공유하겠습니다.
주요 내용
1. 전처리로 해결할 수 있는 것
66 의 실험 결과, 오타 + 의학 용어 추가를 했으나, 스코어가 하락하는 것을 발견
2. 후처리로 해결할 수 있는 것
3. 쉽게 해결할 수 없는 것
주요 오류 내용들을 기준으로 정한 것이며, 추후 @HyeonhoonLee 의 모델학습 결과를 토대로 데이터 처리 과정을 구축해 나갈 것입니다.