Session log 22.3.31. - Githubissues

Kingthegarden commented 2 years ago

주요 내용

1. 전처리로 해결할 수 있는 것

lowercase 적용
- 사람의 주관적인 것(누구는 대문자로 쓰고, 누구는 소문자로 쓰고 즉, 다른 표기법)을 일관화할 수 있다.
- 의료 표기법이 제대로 표현되지 않을 수 있으나, 위의 경우로 얻는 이점이 더 많을 것으로 판단됨
- 하지만, @ympaik87 fold-9을 기준으로 적용했을 때, CV score는 내려간 것으로 확인함. 따라서, CV - LB의 trade-off을 고려해봐야할 것으로 판단됨
- 토큰 추가 문제
- 66 의 실험 결과, 오타 + 의학 용어 추가를 했으나, 스코어가 하락하는 것을 발견
- 다만, 의학 용어만을 추가하는 것은 고려해볼만 하나, 성능 향상은 적을 것으로 예상됨
길이가 같은 오타 문제 ( 모델 예측 결과를 기준으로 )
- 이런 case는 많이 있지 않지만, 시도해볼 가치가 있음
  2. 후처리로 해결할 수 있는 것
공백 문제
- ex) 'neg Vaginal discharge' ->' neg Vaginal discharge'
- infer 과정에서 조정하는 것으로
- 특수문자 처리
- " / ‘ “ ( - + , " 등이 존재함
- infer 끝나고 후처리에서 진행해야 할 것으로 판단됨

3. 쉽게 해결할 수 없는 것

오타 문제
- span repairing 코드 구축을 통해서 고칠 수 있을 것으로 예상됨
- ex) occurrr
관사, 형용사, 전치사 등이 포함된 정답지
- 평가자별로 채점하는 기준이 달라서 생기는 문제로 인위적인 코드를 만들어서 해결하는 것은 불가능하다고 판단

주요 오류 내용들을 기준으로 정한 것이며, 추후 @HyeonhoonLee 의 모델학습 결과를 토대로 데이터 처리 과정을 구축해 나갈 것입니다.

ympaik87 commented 2 years ago

정리 감사합니다! 현훈님 학습 결과가 기대되네요.

ympaik87 commented 2 years ago

토큰 추가 문제

근데 토큰 추가 문제가 후처리로 해결할 수 있는 거라고 보는게 맞을까요?? 오히려 깨진 단어를 후처리로 고치는걸 제안하는게 낫지 싶습니다.

Kingthegarden commented 2 years ago

아하 전처리 과정이라고 봐야겠네요 ㅎㅎ

HyeonhoonLee commented 2 years ago

우선 의학용어 관련 토큰 아이디어가 정말 괜찮아 보였는데, 성능 향상이 없다니 너무 아쉽네요. 다시 생각해보면 token 갯수가 ~M으로 굉장히 큰 dimension을 가지고 있는데, 거기다가 Token 몇 개 추가해서 그게 제대로 모델에 학습이 되지 않는다면 오히려 다른 token들의 혼란만 가중시킬 것 같네요. (뇌피셜입니다만^^)

정답 후처리는 좋은 방법인 것 같습니다. 다른 notebook에도 나와있구요. 얼른 실험 결과 및 가중치 공유하겠습니다.

medal-contender / nbme-score-clinical-patient-notes

Session log 22.3.31. #77

주요 내용

1. 전처리로 해결할 수 있는 것

66 의 실험 결과, 오타 + 의학 용어 추가를 했으나, 스코어가 하락하는 것을 발견

2. 후처리로 해결할 수 있는 것

3. 쉽게 해결할 수 없는 것

주요 오류 내용들을 기준으로 정한 것이며, 추후 @HyeonhoonLee 의 모델학습 결과를 토대로 데이터 처리 과정을 구축해 나갈 것입니다.