osamhack2021 / ai_web_RISKOUT_BTS

Risk Management Platform for the Military |🏅국방부장관상(Minister of National Defense Award)
https://riskout.org/
GNU General Public License v3.0
20 stars 1 forks source link

NER 기능 output data의 label에 대해 궁금한 점이 있습니다! #44

Closed dev-taewon-kim closed 3 years ago

dev-taewon-kim commented 3 years ago

{ "ner": [ { "ORG-B": [ "넷플릭스" ], "LOC-B": [ "한국" ], "CVL-B": [ "피해자", "오징어", "지인" ], "AFW-B": [ "투데이" ], "PER-B": [ "영문" ], "FLD-B": [ "드라마" ], "TIM-B": [ "밤낮" ] } ], "time": 2.763068914413452 }

에서 ORG-B는 Organization 인 것 같고, LOC-B는 Location 인 것 같은데 이해가 안되는 label들이 다수 있습니다.

그리고 나올 수 있는 label이 더 뭐가 있는지, 그리고 그게 무슨 의미인지 궁금한데 혹시 해당 내용 정리된 official docs 같은게 있는지 궁금합니다.

아 그리고 A, B, C 이런식으로 나오는건 그냥 해당 label에서 유사한 entity끼리 clustering? 해놓은 것 같은데 맞습니까?

api 설계중인데 막히는 부분이라서 질문드립니다!

cjnghn commented 3 years ago

리드미 수정하는 걸 까먹고 있었습니다.

먼저 데이터셋에 대해서 설명을 해드리면 naver/nlp-challenge를 선택하였습니다.

그리고 데이터셋에 대한 리더보드를 들어가보면 카테고리가 설명이 되어있는데 아래와 같이 나눠 집니다.

개체명 범주 태그 정의
1 PERSON PER 실존, 가상 등 인물명에 해당 하는 것
2 FIELD FLD 학문 분야 및 이론, 법칙, 기술 등
3 ARTIFACTS_WORKS AFW 인공물로 사람에 의해 창조된 대상물
4 ORGANIZATION ORG 기관 및 단체와 회의/회담을 모두 포함
5 LOCATION LOC 지역명칭과 행정구역 명칭 등
6 CIVILIZATION CVL 문명 및 문화에 관련된 용어
7 DATE DAT 날짜
8 TIME TIM 시간
9 NUMBER NUM 숫자
10 EVENT EVN 특정 사건 및 사고 명칭과 행사 등
11 ANIMAL ANM 동물
12 PLANT PLT 식물
13 MATERIAL MAT 금속, 암석, 화학물질 등
14 TERM TRM 의학 용어, IT 관련 용어 등 일반 용어를 총칭

그리고 LOC_B 에서의 "_B" 같은 경우의 수가 "_B", "_I" 가 있는데, 위 리더보드에서는 아래와 같이 설명이 되어 있습니다.

  1. B는 개체명의 시작 어절, I는 앞의 어절과 연속된 같은 개체명을 의미하고, ‘-‘는 개체명이 부여되지 않는 어절이다.
  2. B와 I는 14개 분류 카테고리와 조합하여 표현한다. 예) LOC_B, PER_B, LOC_I, PER_I
  3. 개체명이 시작하는 어절의 레이블은 B와 카테고리의 조합으로 시작한다.
  4. 어절에 두가지 이상의 개체명이 포함된 경우, 먼저 표현된 개체명만 레이블로 표현한다. 예) “창원대학교(컴퓨터공학과)에서”의 어절은 “창원대학교/LOC_B”와 “컴퓨터공학과/ORG_B” 두개 카테고리를 담고있다. 이런 경우 개체명 레이블은 어절에서 먼저 표현된 “창원대학교”를 기준으로 LOC_B가 된다.

결론적으로, 저희 프로젝트에서는 앞 부분만 유의미하게 사용될 것 같으니 제가 반환 값을 손보거나 하는 방식으로 진행하면 될 것 같습니다.

cjnghn commented 3 years ago

혹시 해결되셨다면 Close 부탁드립니다~