kms7530 commented 1 year ago

문제점

현재는 입력시 문장에서 해당 단어가 어떠한 카테고리의 단어(예: PER, ORG 등)인지 정보가 없는 상태이다.

따라서 문장 내에 단어의 카테고리를 명시해줌으로써 학습 시 하나의 추가 정보로 사용되지 않을까 한다.

참고 논문

GPT-NER: Named Entity Recognition via Large Language Models

적용 방법

현재 입력 값은 다음과 같다.

[Subject Word] + [SEP] + [Object Word] + [SEP] + [Sentence]

여기서 [Sentence] 은 원본 문장 그대로 들어가게 되는데, 해당 실험에서는 아래와 같은 구분자를 이용하여 단어가 어떠한 뜻을 내포하고 있는지 표기한다.	Attribute	Seperator
ORG	@@
PER	##
DAT	$$
POH	^^
LOC	::
NOH	**

위의 구분자를 이용하여 다음과 같이 [Sentence] 을 변형한다.

##곽민석##은 @@부스트캠프@@에 참가했다.

dbsrlskfdk commented 1 year ago

제가 앞서 언급한 이슈 #1 여기서 Typed Entity Marker Punct Preprocessing이랑 공통적인 의미 부분이 조금 있는 것 같습니다. @*type* ~~@ 이런식으로 지정해주는 방법인데, type이 str으로 들어가는 것이고, 민석님이 언급해주신 해결책은 Entity Marker방법과 살짝 합쳐진 느낌이네요

Typed Entitiy Marker Processing과 비슷한 느낌입니다.

kms7530 commented 1 year ago

윤기님에 제안한 이슈와 비슷하고 이미 적용되어서 close 하겠습니다!

boostcampaitech5 / level2_klue-nlp-04

[Data] 개체명 구분자 도입 #5

문제점

참고 논문

적용 방법