medal-contender / nbme-score-clinical-patient-notes

BERTs based automated scoring clinical patient notes program
https://www.kaggle.com/c/nbme-score-clinical-patient-notes
0 stars 0 forks source link

Session log 22.3.25. #72

Closed HyeonhoonLee closed 2 years ago

HyeonhoonLee commented 2 years ago

회의록 22.03.25

  1. Roberta 모델로 0.882 까지 만듦 -> 추후 앙상블 시 다른 backbone 활용으로 고려. (#70 참곻여 0.885가 한계라는 의견 있음.)
  2. k fold 방식에서 skf 방식과 StratifiedGroupKFold 방식의 output이 차이가 있음을 발견함. Deberta model 개발 시 StratifiedGroupKFold 방식으로 사용하기로 결정함.
  3. Deberta-v2-xlarge 도 Deberta-v3-large와 같은 tokenizer임을 확인함 (#70 )
  4. Tokenizer 단계에서 model이 이해하는데 필요한 고유명사 등을 add token 하는 작업이 유의미할 수 있다는 의견. (#66)
  5. Deberta 모델 100 epoch 실험에서 fold 0 에서 best CV 0.885이며 LB 0.863 확인함.
  6. 63 의견에 따라 현재 model 들에서 prediction하는 부분의 위치를 찾을 수 있는 코드 작업 예정.

Training set에 annotion이 일관되지 않은 부분이 많이 발견됨. Dataset의 오류를 수정해야 더 정확한 training이 될 것이라 생각됨.

다음주 까지 현훈 영민: data preprocessing 단계에서 tokenizer에 유의미한 token add하기 재우 정원: 고양이 inference코드로 현재 모델 별 prediction 하는 부분 찾기

Kingthegarden commented 2 years ago

정리 감사합니다 !