ko-nlp / moducorpus-sanitizer

모두의 말뭉치 데이터를 분석에 편리한 형태로 변환하는 기능을 제공합니다.
MIT License
11 stars 0 forks source link

[문어 말뭉치] sanitizer #11

Closed lovit closed 2 years ago

lovit commented 4 years ago

(snapshot)

{
    "id": "WARW1800000007",
    "metadata": {
        "title": "국립국어원 문어 말뭉치 WARW1800000007",
        "creator": "국립국어원",
        "distributor": "국립국어원",
        "year": "2018",
        "category": "문어 > 책-상상 > 문학",
        "annotation_level": [
            "원시"
        ],
        "sampling": "본문 전체"
    },
    "document": [
        {
            "id": "WARW1800000007.1",
            "metadata": {
                "title": "이야기꾼 구연설화",
                "author": "황인덕",
                "publisher": "박이정",
                "date": "20070000"
            },
            "paragraph": [
                {
                    "id": "WARW1800000007.1.1",
                    "form": "01범보다 무서운 곶감"
                },
                {
                    "id": "WARW1800000007.1.2",
                    "form": "화자를 처음 만나 이야기를 들으러 왔다고 하자 서슴없이 꺼낸 첫 이야기이다. 화자로서 가장 쉽게 기억해낸 이야기인 셈이다. 설화 앞뒤에 교훈적 해석을 덧붙이고 있음은 화자의 습관화된 태도의 한 모습이기도 하다. 어려서 조모로부터 들었다고 했다."
                },
                {
                    "id": "WARW1800000007.1.3",
                    "form": "그링깨. 사람이 어거지루는 못 살구. 응? 어거지루 안 되능 거여. 사람이 그링깨 뭐이냐 하먼 자연~간 제절루 되야지 어거지루는 못 살어, 사람이."
                },
                {
                    "id": "WARW1800000007.1.4",
                    "form": "그래 옛날, 그 꼭감이라능 게 말여. 사람이 먹잖야 이케? 먹지마는. 그게 참 무성(무서운) 거여."
                },