boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom
1 stars 0 forks source link

[Data] 개체명 구분자 도입 #5

Closed kms7530 closed 1 year ago

kms7530 commented 1 year ago

문제점

현재는 입력시 문장에서 해당 단어가 어떠한 카테고리의 단어(예: PER, ORG 등)인지 정보가 없는 상태이다.

따라서 문장 내에 단어의 카테고리를 명시해줌으로써 학습 시 하나의 추가 정보로 사용되지 않을까 한다.

참고 논문

GPT-NER: Named Entity Recognition via Large Language Models

적용 방법

현재 입력 값은 다음과 같다.

[Subject Word] + [SEP] + [Object Word] + [SEP] + [Sentence]
여기서 [Sentence] 은 원본 문장 그대로 들어가게 되는데, 해당 실험에서는 아래와 같은 구분자를 이용하여 단어가 어떠한 뜻을 내포하고 있는지 표기한다. Attribute Seperator
ORG @@
PER ##
DAT $$
POH ^^
LOC ::
NOH **

위의 구분자를 이용하여 다음과 같이 [Sentence] 을 변형한다.

##곽민석##은 @@부스트캠프@@에 참가했다. 
dbsrlskfdk commented 1 year ago

제가 앞서 언급한 이슈 #1 여기서 Typed Entity Marker Punct Preprocessing이랑 공통적인 의미 부분이 조금 있는 것 같습니다. @*type* ~~@ 이런식으로 지정해주는 방법인데, type이 str으로 들어가는 것이고, 민석님이 언급해주신 해결책은 Entity Marker방법과 살짝 합쳐진 느낌이네요


Typed Entitiy Marker Processing과 비슷한 느낌입니다.

image
kms7530 commented 1 year ago

윤기님에 제안한 이슈와 비슷하고 이미 적용되어서 close 하겠습니다!