boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom
1 stars 0 forks source link

Feature: change format of token #60

Closed lig96 closed 1 year ago

lig96 commented 1 year ago

per이라고 적힌 토큰을 person으로 변경합니다. 특수문자 사이에 띄어쓰기도 넣어줍니다.

close #38

lig96 commented 1 year ago

댓글 부탁드립니다!

kms7530 commented 1 year ago

통일성을 위해서 변경해주신건가요?

lig96 commented 1 year ago

통일성이라기보다는 per대신 person이라고 표현하면, noh도 number로 표현하면 모델이 더 잘 이해할 것 같아서 바꿔봤습니다. 아마 이렇게 표현이 됩니다.

@ number 987 @ 년에 이순신이 태어났다.

dbsrlskfdk commented 1 year ago

혹시 성능 실험 결과가 있으신가요? 더 좋은 성능이 나올지는 테스트 해봐야 알것같은데 실험 해보셨으면 결과도 같이 올려주세요!

lig96 commented 1 year ago

dca03a385ecb06c470586847098ed7b7ff29c49d + 지금 본문 속 변경사항 + 배치사이즈 64 + seed=np.randomint(1,2000)

저는 성능이 좋든 안 좋든 이론상 합당한 접근이기 때문에 pr 올릴 생각이었는데...... 아무튼 지금 이 코드를 https://wandb.ai/nlp-10/RE?workspace=user-leeingyun96 에서 3번 돌리고 있습니다. 수요일 새벽 3시에 끝날 것 같습니다. 뭐 돌려서 나쁠 건 없죠.

근데 정작 비교 기준이 될 만한 이거 안 했을 때의 성적이 없네요. 흠..... 리더보드 제출은 좀 그렇고...

dbsrlskfdk commented 1 year ago

Context 포함 하지 않은 Type Entity Marker Pucnt만 적용한 결과는

image image

이 정도 결과였습니다

lig96 commented 1 year ago

image

(해골물 포함) 시드만 다르게 돌린 4개 평균내면 micro_f1이 85.6으로 오차범위 이내 or 약간 좋아짐이라고 보면 될 거 같습니다.