ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
693 stars 80 forks source link

모두의 말뭉치: 메신저 말뭉치 loader #111

Closed lovit closed 4 years ago

lovit commented 4 years ago

(snapshot)

{
    "id": "MDRW1900002487",
    "metadata": {
        "title": "국립국어원 메신저 말뭉치 MDRW1900002487",
        "creator": "국립국어원",
        "distributor": "국립국어원",
        "year": "2019",
        "category": "메신저 대화 > 2인 대화",
        "annotation_level": [
            "원시"
        ],
        "sampling": "참여자 모집 후 대화 수집"
    },
    "document": [
        {
            "id": "MDRW1900002487.1",
            "metadata": {
                "title": "메신저 대화",
                "author": "개인 대화 참여자",
                "publisher": "카카오톡",
                "date": "20191219",
                "topic": "일상",
                "speaker": [
                    {
                        "id": "1",
                        "age": "40대",
                        "occupation": "무직/취업준비생",
                        "sex": "여성",
                        "birthplace": "서울",
                        "pricipal_residence": "서울",
                        "current_residence": "강원",
                        "device": "스마트폰",
                        "keyboard": "천지인"
                    },
                    {
                        "id": "2",
                        "age": "30대",
                        "occupation": "가정 주부",
                        "sex": "여성",
                        "birthplace": "경기",
                        "pricipal_residence": "경기",
                        "current_residence": "경기",
                        "device": "스마트폰",
                        "keyboard": "천지인"
                    }
                ],
                "setting": {
                    "relation": "기타 : 온라인 커뮤니티",
                    "intimacy": 5,
                    "contact_frequency": "거의 매일"
                }
            },
            "utterance": [
                {
                    "id": "MDRW1900002487.1.1.1",
                    "form": "안녕 name2아",
                    "original_form": "안녕 &name2&아",
                    "speaker_id": "1",
                    "time": "20191001 14:11"
                },
                {
                    "id": "MDRW1900002487.1.1.2",
                    "form": "나..지구젤리 많이 살수 있는데",
                    "original_form": "나..지구젤리 많이 살수 있는데",
                    "speaker_id": "1",
                    "time": "20191001 14:11"
                },
                {
                    "id": "MDRW1900002487.1.1.3",
                    "form": "진짜요?",
                    "original_form": "진짜요?",
                    "speaker_id": "2",
                    "time": "20191001 14:12"
                },
                {
                    "id": "MDRW1900002487.1.1.4",
                    "form": "어디서?",
                    "original_form": "어디서?",
                    "speaker_id": "2",
                    "time": "20191001 14:12"
                },
                {
                    "id": "MDRW1900002487.1.1.5",
                    "form": "지구젤리야?",
                    "original_form": "지구젤리야?",
                    "speaker_id": "1",
                    "time": "20191001 14:12"
                },
                {
                    "id": "MDRW1900002487.1.1.6",
                    "form": "눈알이야?",
                    "original_form": "눈알이야?",
                    "speaker_id": "1",
                    "time": "20191001 14:12"
                },
                {
                    "id": "MDRW1900002487.1.1.7",
                    "form": "네.지구제리",
                    "original_form": "네.지구제리",
                    "speaker_id": "2",
                    ...