PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.17k stars 2.95k forks source link

[Question]: UIE 关系抽取和实体抽取是否可以混合标注训练呢 #3393

Closed mingyao743 closed 1 year ago

mingyao743 commented 2 years ago

请提出你的问题

关系抽取可能会存在实体缺失的时候,导致只有部分实体词,没有关系词,UIE是否支持这种缺失的情况呢

datalee commented 2 years ago

这玩意必须可以,本来uie就是多任务训练出来的

PanZheng-2021 commented 2 years ago

这玩意必须可以,本来uie就是多任务训练出来的

那当句子较长的时候,存在多个关系,而UIE只会输出一个概率最大的关系,这个怎么办呢?

linjieccc commented 2 years ago

可以混合标注训练,参考doccano标注指南里面不同任务的标注方式标注即可,https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md

linjieccc commented 2 years ago

这玩意必须可以,本来uie就是多任务训练出来的

那当句子较长的时候,存在多个关系,而UIE只会输出一个概率最大的关系,这个怎么办呢?

UIE默认会输出满足关系阈值的所有可能结果,例如这个例子中主办方和承办方这两个关系类别

>>> schema = {'竞赛名称': ['主办方', '承办方', '已举办次数']} # Define the schema for relation extraction
>>> ie.set_schema(schema) # Reset schema
>>> pprint(ie('2022语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办,已连续举办4届,成为全球最热门的中文NLP赛事之一。'))
[{'竞赛名称': [{'end': 13,
            'probability': 0.7825402622754041,
            'relations': {'主办方': [{'end': 22,
                                  'probability': 0.8421710521379353,
                                  'start': 14,
                                  'text': '中国中文信息学会'},
                                  {'end': 30,
                                  'probability': 0.7580801847701935,
                                  'start': 23,
                                  'text': '中国计算机学会'}],
                          '已举办次数': [{'end': 82,
                                    'probability': 0.4671295049136148,
                                    'start': 80,
                                    'text': '4届'}],
                          '承办方': [{'end': 39,
                                  'probability': 0.8292706618236352,
                                  'start': 35,
                                  'text': '百度公司'},
                                  {'end': 72,
                                  'probability': 0.6193477885474685,
                                  'start': 56,
                                  'text': '中国计算机学会自然语言处理专委会'},
                                  {'end': 55,
                                  'probability': 0.7000497331473241,
                                  'start': 40,
                                  'text': '中国中文信息学会评测工作委员会'}]},
            'start': 0,
            'text': '2022语言与智能技术竞赛'}]}]
github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。