vncorenlp / VnCoreNLP

A Vietnamese natural language processing toolkit (NAACL 2018)
Other
587 stars 145 forks source link

Nhận diện sai từ khi thực hiện text anonate #29

Closed canhnm closed 4 years ago

canhnm commented 4 years ago

Input Sentences:

Schauffele háo hức tiếp tục mùa giải PGA Tour Tay golf Xander Schauffele thừa nhận anh rất muốn thi đấu trở lại, bất kể mùa giải PGA Tour được tổ chức trong điều kiện như thế nào đi nữa. Schauffele đã 4 lần vô địch PGA Tour và cũng từng về nhì tại Masters và US Open. Tay golf số 12 thế giới khẳng định anh không thực sự quan tâm đến lịch thi đấu và trở lại của các giải đấu bởi điều quan trọng là anh được ra sân và cầm lại chiếc gậy golf quen thuộc.

Khi thực hiện anonate từ Schauffele ở câu thứ 3 đã bị nhận diện thành dạng dấu câu "punct"!

Từ Schauffele đầu tiên nhận diện:

{
                    "depLabel": "sub",
                    "form": "Schauffele",
                    "head": 3,
                    "index": 1,
                    "nerLabel": "O",
                    "posTag": "N"
                }

Từ Schauffele ở câu thứ 3 bị nhận diện thành dấu câu:

{
                    "depLabel": "punct",
                    "form": "Schauffele",
                    "head": 6,
                    "index": 1,
                    "nerLabel": "O",
                    "posTag": "N"
                }

Text annotate:

"0": [
                {
                    "depLabel": "sub",
                    "form": "Schauffele",
                    "head": 3,
                    "index": 1,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "háo_hức",
                    "head": 1,
                    "index": 2,
                    "nerLabel": "O",
                    "posTag": "A"
                },
                {
                    "depLabel": "root",
                    "form": "tiếp_tục",
                    "head": 0,
                    "index": 3,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "dob",
                    "form": "mùa",
                    "head": 3,
                    "index": 4,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "giải",
                    "head": 4,
                    "index": 5,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "PGA",
                    "head": 4,
                    "index": 6,
                    "nerLabel": "O",
                    "posTag": "Ny"
                },
                {
                    "depLabel": "nmod",
                    "form": "Tour_Tay",
                    "head": 4,
                    "index": 7,
                    "nerLabel": "O",
                    "posTag": "Np"
                },
                {
                    "depLabel": "nmod",
                    "form": "golf",
                    "head": 4,
                    "index": 8,
                    "nerLabel": "O",
                    "posTag": "Nb"
                },
                {
                    "depLabel": "nmod",
                    "form": "Xander_Schauffele",
                    "head": 4,
                    "index": 9,
                    "nerLabel": "B-PER",
                    "posTag": "Np"
                },
                {
                    "depLabel": "vmod",
                    "form": "thừa_nhận",
                    "head": 3,
                    "index": 10,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "sub",
                    "form": "anh",
                    "head": 13,
                    "index": 11,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "adv",
                    "form": "rất",
                    "head": 13,
                    "index": 12,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "vmod",
                    "form": "muốn",
                    "head": 10,
                    "index": 13,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "thi_đấu",
                    "head": 13,
                    "index": 14,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "trở_lại",
                    "head": 14,
                    "index": 15,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "punct",
                    "form": ",",
                    "head": 10,
                    "index": 16,
                    "nerLabel": "O",
                    "posTag": "CH"
                },
                {
                    "depLabel": "nmod",
                    "form": "bất_kể",
                    "head": 18,
                    "index": 17,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "sub",
                    "form": "mùa",
                    "head": 22,
                    "index": 18,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "giải",
                    "head": 18,
                    "index": 19,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "PGA",
                    "head": 19,
                    "index": 20,
                    "nerLabel": "O",
                    "posTag": "Ny"
                },
                {
                    "depLabel": "nmod",
                    "form": "Tour",
                    "head": 20,
                    "index": 21,
                    "nerLabel": "O",
                    "posTag": "Np"
                },
                {
                    "depLabel": "vmod",
                    "form": "được",
                    "head": 10,
                    "index": 22,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "tổ_chức",
                    "head": 22,
                    "index": 23,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "trong",
                    "head": 23,
                    "index": 24,
                    "nerLabel": "O",
                    "posTag": "E"
                },
                {
                    "depLabel": "pob",
                    "form": "điều_kiện",
                    "head": 24,
                    "index": 25,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "x",
                    "form": "như_thế_nào",
                    "head": 25,
                    "index": 26,
                    "nerLabel": "O",
                    "posTag": "X"
                },
                {
                    "depLabel": "x",
                    "form": "đi_nữa",
                    "head": 25,
                    "index": 27,
                    "nerLabel": "O",
                    "posTag": "X"
                },
                {
                    "depLabel": "punct",
                    "form": ".",
                    "head": 3,
                    "index": 28,
                    "nerLabel": "O",
                    "posTag": "CH"
                }
            ],
            "1": [
                {
                    "depLabel": "punct",
                    "form": "Schauffele",
                    "head": 6,
                    "index": 1,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "đã",
                    "head": 4,
                    "index": 2,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "det",
                    "form": "4",
                    "head": 4,
                    "index": 3,
                    "nerLabel": "O",
                    "posTag": "M"
                },
                {
                    "depLabel": "root",
                    "form": "lần",
                    "head": 0,
                    "index": 4,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "vô_địch",
                    "head": 4,
                    "index": 5,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "PGA",
                    "head": 4,
                    "index": 6,
                    "nerLabel": "O",
                    "posTag": "Ny"
                },
                {
                    "depLabel": "nmod",
                    "form": "Tour",
                    "head": 6,
                    "index": 7,
                    "nerLabel": "O",
                    "posTag": "Np"
                },
                {
                    "depLabel": "coord",
                    "form": "và",
                    "head": 4,
                    "index": 8,
                    "nerLabel": "O",
                    "posTag": "Cc"
                },
                {
                    "depLabel": "adv",
                    "form": "cũng",
                    "head": 11,
                    "index": 9,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "adv",
                    "form": "từng",
                    "head": 11,
                    "index": 10,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "conj",
                    "form": "về",
                    "head": 8,
                    "index": 11,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "nhì",
                    "head": 11,
                    "index": 12,
                    "nerLabel": "O",
                    "posTag": "A"
                },
                {
                    "depLabel": "loc",
                    "form": "tại",
                    "head": 11,
                    "index": 13,
                    "nerLabel": "O",
                    "posTag": "E"
                },
                {
                    "depLabel": "pob",
                    "form": "Masters",
                    "head": 13,
                    "index": 14,
                    "nerLabel": "O",
                    "posTag": "Np"
                },
                {
                    "depLabel": "coord",
                    "form": "và",
                    "head": 14,
                    "index": 15,
                    "nerLabel": "O",
                    "posTag": "Cc"
                },
                {
                    "depLabel": "conj",
                    "form": "US",
                    "head": 15,
                    "index": 16,
                    "nerLabel": "B-MISC",
                    "posTag": "Np"
                },
                {
                    "depLabel": "nmod",
                    "form": "Open",
                    "head": 16,
                    "index": 17,
                    "nerLabel": "I-MISC",
                    "posTag": "Np"
                },
                {
                    "depLabel": "punct",
                    "form": ".",
                    "head": 17,
                    "index": 18,
                    "nerLabel": "O",
                    "posTag": "CH"
                }
            ],
            "2": [
                {
                    "depLabel": "sub",
                    "form": "Tay",
                    "head": 6,
                    "index": 1,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "golf",
                    "head": 1,
                    "index": 2,
                    "nerLabel": "O",
                    "posTag": "Nb"
                },
                {
                    "depLabel": "nmod",
                    "form": "số",
                    "head": 1,
                    "index": 3,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "det",
                    "form": "12",
                    "head": 3,
                    "index": 4,
                    "nerLabel": "O",
                    "posTag": "M"
                },
                {
                    "depLabel": "nmod",
                    "form": "thế_giới",
                    "head": 3,
                    "index": 5,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "root",
                    "form": "khẳng_định",
                    "head": 0,
                    "index": 6,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "sub",
                    "form": "anh",
                    "head": 10,
                    "index": 7,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "adv",
                    "form": "không",
                    "head": 10,
                    "index": 8,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "vmod",
                    "form": "thực_sự",
                    "head": 10,
                    "index": 9,
                    "nerLabel": "O",
                    "posTag": "A"
                },
                {
                    "depLabel": "vmod",
                    "form": "quan_tâm",
                    "head": 6,
                    "index": 10,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "đến",
                    "head": 10,
                    "index": 11,
                    "nerLabel": "O",
                    "posTag": "E"
                },
                {
                    "depLabel": "pob",
                    "form": "lịch",
                    "head": 11,
                    "index": 12,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "thi_đấu",
                    "head": 12,
                    "index": 13,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "coord",
                    "form": "và",
                    "head": 10,
                    "index": 14,
                    "nerLabel": "O",
                    "posTag": "Cc"
                },
                {
                    "depLabel": "conj",
                    "form": "trở_lại",
                    "head": 14,
                    "index": 15,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "của",
                    "head": 10,
                    "index": 16,
                    "nerLabel": "O",
                    "posTag": "E"
                },
                {
                    "depLabel": "det",
                    "form": "các",
                    "head": 18,
                    "index": 17,
                    "nerLabel": "O",
                    "posTag": "L"
                },
                {
                    "depLabel": "pob",
                    "form": "giải",
                    "head": 16,
                    "index": 18,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "đấu",
                    "head": 18,
                    "index": 19,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "prp",
                    "form": "bởi",
                    "head": 10,
                    "index": 20,
                    "nerLabel": "O",
                    "posTag": "E"
                },
                {
                    "depLabel": "pob",
                    "form": "điều",
                    "head": 20,
                    "index": 21,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "quan_trọng",
                    "head": 21,
                    "index": 22,
                    "nerLabel": "O",
                    "posTag": "A"
                },
                {
                    "depLabel": "vmod",
                    "form": "là",
                    "head": 6,
                    "index": 23,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "dob",
                    "form": "anh",
                    "head": 23,
                    "index": 24,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "vmod",
                    "form": "được",
                    "head": 23,
                    "index": 25,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "vmod",
                    "form": "ra",
                    "head": 25,
                    "index": 26,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "dob",
                    "form": "sân",
                    "head": 26,
                    "index": 27,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "coord",
                    "form": "và",
                    "head": 23,
                    "index": 28,
                    "nerLabel": "O",
                    "posTag": "Cc"
                },
                {
                    "depLabel": "conj",
                    "form": "cầm",
                    "head": 28,
                    "index": 29,
                    "nerLabel": "O",
                    "posTag": "V"
                },
                {
                    "depLabel": "adv",
                    "form": "lại",
                    "head": 29,
                    "index": 30,
                    "nerLabel": "O",
                    "posTag": "R"
                },
                {
                    "depLabel": "dob",
                    "form": "chiếc",
                    "head": 29,
                    "index": 31,
                    "nerLabel": "O",
                    "posTag": "Nc"
                },
                {
                    "depLabel": "nmod",
                    "form": "gậy",
                    "head": 31,
                    "index": 32,
                    "nerLabel": "O",
                    "posTag": "N"
                },
                {
                    "depLabel": "nmod",
                    "form": "golf",
                    "head": 31,
                    "index": 33,
                    "nerLabel": "O",
                    "posTag": "Nb"
                },
                {
                    "depLabel": "nmod",
                    "form": "quen_thuộc",
                    "head": 31,
                    "index": 34,
                    "nerLabel": "O",
                    "posTag": "A"
                },
                {
                    "depLabel": "punct",
                    "form": ".",
                    "head": 6,
                    "index": 35,
                    "nerLabel": "O",
                    "posTag": "CH"
                }
            ]
tienthanhdhcn commented 4 years ago

The label of a word is based on both the semantic and syntactic relations. Schauffele is used in different contexts in the sentences leading to different labels (e.g., in the first context Tay golf is a good indicator to show that Schauffele is a PERSON).

Wrongly predicting a label should be normal in the machine learning area as otherwise, you should get a perfect model (100% accuracy) instead of a good model (~80% accuracy).

The models were trained on annotated datasets, which means it might not cover every context. In your case, Schauffele is probably not available in our pre-trained word-embeddings as well.

My suggestion is that you should read our paper to get some idea of how VnCoreNLP works and what is the performance of it.