ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
693 stars 80 forks source link

모두의 말뭉치: 개체명 분석 말뭉치 loader #116

Closed lovit closed 4 years ago

lovit commented 4 years ago

(snapshot)

{
    "id": "NXNE1902008030", 
    "metadata": {
        "title": "국립국어원 신문 말뭉치 추출 NXNE1902008030", 
        "creator": "국립국어원", 
        "distributor": "국립국어원", 
        "year": "2019", 
        "category": "신문 > 전국종합지", 
        "annotation_level": "개체명 분석", 
        "sampling": "본문 전체"
    }, 
    "document": [
        {
            "id": "NWRW1800000029.315", 
            "metadata": {
                "title": "", 
                "author": "권순활 논설위원 shkwon@donga.com", 
                "publisher": "동아일보사, 조선일보사, 한겨레", 
                "date": "20110512", 
                "topic": "오피니언", 
                "url": ""
            }, 
            "sentence": [
                {
                    "id": "NWRW1800000029.315.1.1", 
                    "form": "[횡설수설/권순활]北 ‘외화벌이’ 뜯어먹기", 
                    "word": [
                        {
                            "id": 1, 
                            "form": "[횡설수설/권순활]北", 
                            "begin": 0, 
                            "end": 11
                        }, 
                        {
                            "id": 2, 
                            "form": "‘외화벌이’", 
                            "begin": 12, 
                            "end": 18
                        }, 
                        {
                            "id": 3, 
                            "form": "뜯어먹기", 
                            "begin": 19, 
                            "end": 23
                        }
                    ], 
                    "NE": [
                        {
                            "id": 1, 
                            "form": "횡설수설", 
                            "label": "AF", 
                            "begin": 1, 
                            "end": 5
                        }, 
                        {
                            "id": 2, 
                            "form": "권순활", 
                            "label": "PS", 
                            "begin": 6, 
                            "end": 9
                        }, 
                        {
                            "id": 3, 
                            "form": "北", 
                            "label": "LC", 
                            "begin": 10, 
                            "end": 11
                        }
                    ]
                }, 
                {
                    "id": "NWRW1800000029.315.2.1", 
                    "form": "필리핀 국민의 약 10%인 800만 명은 세계 곳곳에서 건설노동자 가정부 유모 등으로 힘들게 일한다.", 
                    "word": [
                        {
                            "id": 1, 
                            "form": "필리핀", 
                            "begin": 0, 
                            "end": 3
                        }, 
ratsgo commented 4 years ago

태그셋

스크린샷 2020-10-12 오후 9 04 04
lovit commented 4 years ago

위의 내용을 바탕으로 tagmap 이 작성되었습니다.

ModuNEKorpus.tagmap