luhua-rain / MRC_Competition_Dureader

机器阅读理解 冠军/亚军代码及中文预训练MRC模型
732 stars 150 forks source link

请教法律判决书法律条文的抽取问题 #47

Open tigerzhang opened 2 years ago

tigerzhang commented 2 years ago

用以下模型对一个法律判决书做问答抽取信息:

        'luhua/chinese_pretrain_mrc_roberta_wwm_ext_large'
        'luhua/chinese_pretrain_mrc_macbert_large'

抽取被告人、徒刑等信息都正常,但是想抽取依据的法律和条文,怎么也得不到想要的效果。

比如抽取这一段里面的法律条文:

被告人陶某某自愿认罪认罚,可以从宽处理。综上,依据《中华人民共和国刑法》第二百六十六条,第六十七条第三款,第六十四条,《中华人民共和国刑事诉讼法》第十五条之规定,判决如下:

正确的结果应该是:

《中华人民共和国刑法》第二百六十六条,第六十七条第三款,第六十四条,《中华人民共和国刑事诉讼法》第十五条

实际测试结果:

Question: 判决依据是
{'score': 0.33327004313468933, 'start': 1525, 'end': 1537, 'answer': '连云港市海州区人民检察院'}
Question: 判决依据什么法律
{'score': 0.09680692106485367, 'start': 1727, 'end': 1730, 'answer': '诈骗罪'}
Question: 依据《中华人民共和国刑法》哪几条
{'score': 0.11693647503852844, 'start': 1666, 'end': 1673, 'answer': '第二百六十六条'}

请教一下,这种情况,有什么好办法。

测试代码:https://github.com/tigerzhang/bert-qa/blob/main/test-transformers-models.py#L43

YSQC commented 2 years ago

得训练吧, 这个预训练,肯定没有专业术语么

davidfan1224 commented 2 years ago

得拿你自己的领域数据集微调这个模型