medal-contender / nbme-score-clinical-patient-notes

BERTs based automated scoring clinical patient notes program
https://www.kaggle.com/c/nbme-score-clinical-patient-notes
0 stars 0 forks source link

Session log 22.3.31. #77

Closed Kingthegarden closed 2 years ago

Kingthegarden commented 2 years ago

주요 내용

1. 전처리로 해결할 수 있는 것

3. 쉽게 해결할 수 없는 것

주요 오류 내용들을 기준으로 정한 것이며, 추후 @HyeonhoonLee 의 모델학습 결과를 토대로 데이터 처리 과정을 구축해 나갈 것입니다.

ympaik87 commented 2 years ago

정리 감사합니다! 현훈님 학습 결과가 기대되네요.

ympaik87 commented 2 years ago

토큰 추가 문제

근데 토큰 추가 문제가 후처리로 해결할 수 있는 거라고 보는게 맞을까요?? 오히려 깨진 단어를 후처리로 고치는걸 제안하는게 낫지 싶습니다.

Kingthegarden commented 2 years ago

아하 전처리 과정이라고 봐야겠네요 ㅎㅎ

HyeonhoonLee commented 2 years ago

우선 의학용어 관련 토큰 아이디어가 정말 괜찮아 보였는데, 성능 향상이 없다니 너무 아쉽네요. 다시 생각해보면 token 갯수가 ~M으로 굉장히 큰 dimension을 가지고 있는데, 거기다가 Token 몇 개 추가해서 그게 제대로 모델에 학습이 되지 않는다면 오히려 다른 token들의 혼란만 가중시킬 것 같네요. (뇌피셜입니다만^^)

정답 후처리는 좋은 방법인 것 같습니다. 다른 notebook에도 나와있구요. 얼른 실험 결과 및 가중치 공유하겠습니다.