hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.82k stars 10.12k forks source link

日文成分句法分析结果错误 #1783

Closed heyoma closed 2 years ago

heyoma commented 2 years ago

Describe the bug A clear and concise description of what the bug is. 在使用hanlp_restful或hanlp时,使用示例代码无法复刻doc中日语文本的成分句法分析结果,且结果大部分都是错的,英文中文正常。 麻烦开发者大大看一下,谢谢!

Code to reproduce the issue Provide a reproducible test case that is the bare minimum necessary to generate the problem. 代码

import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_XLMR_BASE)
print(HanLP(['In 2021, HanLPv2.1 delivers state-of-the-art multilingual NLP techniques to production environments.',
             '2021年、HanLPv2.1は次世代の最先端多言語NLP技術を本番環境に導入します。',
             '2021年 HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。']))

目标日语文本

2021年、HanLPv2.1は次世代の最先端多言語NLP技術を本番環境に導入します。

Describe the current behavior A clear and concise description of what happened. 文档中描述的该示例中日语文本的成分句法分析结果应为:

 ["TOP", [["IP", [["NUM", ["2021"]], ["NOUN", ["年"]], ["PUNCT", ["、"]], ["NOUN", ["HanLPv2.1"]], ["IP", [["VP", [["VP", [["ADP", ["は"]], ["NOUN", ["次"]], ["NOUN", ["世代"]], ["ADP", ["の"]], ["ADJP", [["ADJP", [["ADJP", [["NOUN", ["最"]]]], ["ADJP", [["NOUN", ["先端"]]]]]], ["ADJP", [["NOUN", ["多"]]]]]]]]]]]], ["NP", [["NP", [["NP", [["NP", [["NP", [["NOUN", ["言語"]], ["NOUN", ["NLP"]], ["NOUN", ["技術"]]]], ["ADP", ["を"]]]], ["NOUN", ["本番"]], ["NOUN", ["環境"]]]], ["PP", [["ADP", ["に"]]]]]], ["VP", [["VERB", ["導入"]], ["AUX", ["します"]]]]]], ["PUNCT", ["。"]]]]]],

实际运行结果为:

["TOP", [["S", [["NP", [["NP", [["NP", [["NOUN", ["2021年"]]]], ["PUNCT", ["、"]], ["PROPN", ["HanLPv2.1"]], ["ADP", ["は"]], ["NP", [["NOUN", ["次世代"]]]]]], ["ADP", ["の"]], ["NOUN", ["最"]], ["NOUN", ["先端"]], ["NOUN", ["多言語"]], ["NP", [["NOUN", ["NLP"]], ["NOUN", ["技術"]], ["NP", [["NP", [["NOUN", ["を本番環境"]]]], ["IP", [["VP", [["VPT", [["ADP", ["に"]], ["NP", [["NOUN", ["導入"]]]]]]]]]]]], ["VERB", ["し"]]]]]], ["NP", [["AUX", ["ます"]]]], ["PUNCT", ["。"]]]]]]

Expected behavior A clear and concise description of what you expected to happen.

System information

Other info / logs Include any logs or source code that would be helpful to diagnose the problem. If including tracebacks, please include the full traceback. Large logs and files should be attached. 本人主要用于分析日语中的名词短语(NP)。 上面描述的示例日语文本分析出的结果为:

2021年、HanLPv2.1は次世代の最先端多言語NLP技術を本番環境に導入し
2021年、HanLPv2.1は次世代
2021年
次世代
NLP技術を本番環境に導入し
を本番環境に導入
を本番環境
導入
ます

只有两条正确。是不是模型版本迭代时,日语句法成分分析任务漏掉了?麻烦开发者大大看一下,谢谢!

hankcs commented 2 years ago

文档示例是早期版本的分析结果,在支持了更多语种之后,一些小语种的某些任务可能的确性能有所下降。建议使用单语种模型,比多语种模型效果好很多:https://colab.research.google.com/drive/1KPX6t1y36TOzRIeB4Kt3uJ1twuj6WuFv#scrollTo=zp9MLAErwx2-

Token       PoS    3         4        5       6       7       8 
─────────   ────────────────────────────────────────────────────
2021        NUM──┐                                              
年           CL ──┴►NUMCLP────────────────────────────►NP ───┐   
、           PU ─────────────────────────────────────────────┤   
HanLPv2.1   NPR───►NP ─────┐                                │   
は           P ─────────────┴─────────────────────────►PP────┤   
次           N ───┐                                          │   
世代          N ───┴►NP ─────┐                                │   
の           P ─────────────┴►PP ────┐                       │   
最           N ──────────────────────┤                       │   
先端          N ────►NP ──────►CONJP──┤                       │   
多           NUM─────────────────────┼►NML ──┐               │   
言語          N ──────────────────────┤       │               ├►IP
NLP         N ──────────────────────┘       ├►NP ───┐       │   
技術          N ──────────────────────────────┘       ├►PP────┤   
を           P ──────────────────────────────────────┘       │   
本番          N ───┐                                          │   
環境          N ───┴►NP ─────┐                                │   
に           P ─────────────┴─────────────────────────►PP────┤   
導入          VB ─────────────────────────────────────────────┤   
し           VB0─────────────────────────────────────────────┤   
ます          AX ─────────────────────────────────────────────┤   
。           PU ─────────────────────────────────────────────┘   

Toke    PoS    3         4       5       6       7       8       9       10      11
────    ───────────────────────────────────────────────────────────────────────────
奈須      NPR──┐                                                                     
きのこ     NPR──┴►NP ─────┐                                                           
は       P ─────────────┴────────────────────────────────────────────────►PP ───┐   
1973    NUM──┐                                                                 │   
年       CL ──┴►NUMCLP──┐                                                       │   
11      NUM──┐         │                                                       │   
月       CL ──┴►NUMCLP──┼►NP ───┐                                               │   
28      NUM──┐         │       │                                               │   
日       CL ──┴►NUMCLP──┘       ├►PP ───┐                                       │   
に       P ─────────────────────┘       │                                       │   
千葉      NPR──┐                         │                                       │   
県       NPR──┴►PP ─────┐               │                                       │   
円空      NPR────────────┼►NP ───┐       ├────────────────────────────────►IP────┤   
山       NPR────────────┘       ├►PP────┤                                       │   
で       P ─────────────────────┘       │                                       │   
生まれ     VB ────────────────────────────┘                                       ├►IP
、       PU ────────────────────────────────────────────────────────────────────┤   
ゲーム     N ───┐                                                                 │   
制作      N ───┴►NP ──────►PRN ──┐                                               │   
会社      N ─────────────────────┴►NP ────►PRN ──┐                               │   
「       PUL────────────────────────────────────┤                               │   
ノーツ     NPR────────────────────────────────────┼►NP ───┐                       │   
」       PUR────────────────────────────────────┘       ├►PP ───┐               │   
の       P ─────────────────────────────────────────────┘       ├►IP ───┐       │   
設立      N ─────────────────────────────────────────────────────┘       ├►NP────┤   
者       N ─────────────────────────────────────────────────────────────┘       │   
だ       AX ────────────────────────────────────────────────────────────────────┤   
。       PU ────────────────────────────────────────────────────────────────────┘   
heyoma commented 2 years ago

感谢!