Closed dev-taewon-kim closed 3 years ago
리드미 수정하는 걸 까먹고 있었습니다.
먼저 데이터셋에 대해서 설명을 해드리면 naver/nlp-challenge를 선택하였습니다.
그리고 데이터셋에 대한 리더보드를 들어가보면 카테고리가 설명이 되어있는데 아래와 같이 나눠 집니다.
개체명 범주 | 태그 | 정의 | |
---|---|---|---|
1 | PERSON | PER | 실존, 가상 등 인물명에 해당 하는 것 |
2 | FIELD | FLD | 학문 분야 및 이론, 법칙, 기술 등 |
3 | ARTIFACTS_WORKS | AFW | 인공물로 사람에 의해 창조된 대상물 |
4 | ORGANIZATION | ORG | 기관 및 단체와 회의/회담을 모두 포함 |
5 | LOCATION | LOC | 지역명칭과 행정구역 명칭 등 |
6 | CIVILIZATION | CVL | 문명 및 문화에 관련된 용어 |
7 | DATE | DAT | 날짜 |
8 | TIME | TIM | 시간 |
9 | NUMBER | NUM | 숫자 |
10 | EVENT | EVN | 특정 사건 및 사고 명칭과 행사 등 |
11 | ANIMAL | ANM | 동물 |
12 | PLANT | PLT | 식물 |
13 | MATERIAL | MAT | 금속, 암석, 화학물질 등 |
14 | TERM | TRM | 의학 용어, IT 관련 용어 등 일반 용어를 총칭 |
그리고 LOC_B 에서의 "_B" 같은 경우의 수가 "_B", "_I" 가 있는데, 위 리더보드에서는 아래와 같이 설명이 되어 있습니다.
결론적으로, 저희 프로젝트에서는 앞 부분만 유의미하게 사용될 것 같으니 제가 반환 값을 손보거나 하는 방식으로 진행하면 될 것 같습니다.
혹시 해결되셨다면 Close 부탁드립니다~
{ "ner": [ { "ORG-B": [ "넷플릭스" ], "LOC-B": [ "한국" ], "CVL-B": [ "피해자", "오징어", "지인" ], "AFW-B": [ "투데이" ], "PER-B": [ "영문" ], "FLD-B": [ "드라마" ], "TIM-B": [ "밤낮" ] } ], "time": 2.763068914413452 }
에서 ORG-B는 Organization 인 것 같고, LOC-B는 Location 인 것 같은데 이해가 안되는 label들이 다수 있습니다.
그리고 나올 수 있는 label이 더 뭐가 있는지, 그리고 그게 무슨 의미인지 궁금한데 혹시 해당 내용 정리된 official docs 같은게 있는지 궁금합니다.
아 그리고 A, B, C 이런식으로 나오는건 그냥 해당 label에서 유사한 entity끼리 clustering? 해놓은 것 같은데 맞습니까?
api 설계중인데 막히는 부분이라서 질문드립니다!