Closed lovit closed 4 years ago
sentence
(begin, end, type)
...
"label": "LC", "begin": 10,
NE
(snapshot)
{ "id": "NXNE1902008030", "metadata": { "title": "국립국어원 신문 말뭉치 추출 NXNE1902008030", "creator": "국립국어원", "distributor": "국립국어원", "year": "2019", "category": "신문 > 전국종합지", "annotation_level": "개체명 분석", "sampling": "본문 전체" }, "document": [ { "id": "NWRW1800000029.315", "metadata": { "title": "", "author": "권순활 논설위원 shkwon@donga.com", "publisher": "동아일보사, 조선일보사, 한겨레", "date": "20110512", "topic": "오피니언", "url": "" }, "sentence": [ { "id": "NWRW1800000029.315.1.1", "form": "[횡설수설/권순활]北 ‘외화벌이’ 뜯어먹기", "word": [ { "id": 1, "form": "[횡설수설/권순활]北", "begin": 0, "end": 11 }, { "id": 2, "form": "‘외화벌이’", "begin": 12, "end": 18 }, { "id": 3, "form": "뜯어먹기", "begin": 19, "end": 23 } ], "NE": [ { "id": 1, "form": "횡설수설", "label": "AF", "begin": 1, "end": 5 }, { "id": 2, "form": "권순활", "label": "PS", "begin": 6, "end": 9 }, { "id": 3, "form": "北", "label": "LC", "begin": 10, "end": 11 } ] }, { "id": "NWRW1800000029.315.2.1", "form": "필리핀 국민의 약 10%인 800만 명은 세계 곳곳에서 건설노동자 가정부 유모 등으로 힘들게 일한다.", "word": [ { "id": 1, "form": "필리핀", "begin": 0, "end": 3 },
태그셋
위의 내용을 바탕으로 tagmap 이 작성되었습니다.
ModuNEKorpus.tagmap
sentence
, ((begin, end, type)
,(begin, end, type)
,...
) ) 이 가장 효율적이라 생각됨NE
항목이 없는 문장의 비율 확인 필요(snapshot)