请教法律判决书法律条文的抽取问题

tigerzhang commented 2 years ago

用以下模型对一个法律判决书做问答抽取信息：

        'luhua/chinese_pretrain_mrc_roberta_wwm_ext_large'
        'luhua/chinese_pretrain_mrc_macbert_large'

抽取被告人、徒刑等信息都正常，但是想抽取依据的法律和条文，怎么也得不到想要的效果。

比如抽取这一段里面的法律条文：

被告人陶某某自愿认罪认罚，可以从宽处理。综上，依据《中华人民共和国刑法》第二百六十六条，第六十七条第三款，第六十四条，《中华人民共和国刑事诉讼法》第十五条之规定，判决如下:

正确的结果应该是：

《中华人民共和国刑法》第二百六十六条，第六十七条第三款，第六十四条，《中华人民共和国刑事诉讼法》第十五条

实际测试结果：

Question: 判决依据是
{'score': 0.33327004313468933, 'start': 1525, 'end': 1537, 'answer': '连云港市海州区人民检察院'}
Question: 判决依据什么法律
{'score': 0.09680692106485367, 'start': 1727, 'end': 1730, 'answer': '诈骗罪'}
Question: 依据《中华人民共和国刑法》哪几条
{'score': 0.11693647503852844, 'start': 1666, 'end': 1673, 'answer': '第二百六十六条'}

请教一下，这种情况，有什么好办法。

测试代码：https://github.com/tigerzhang/bert-qa/blob/main/test-transformers-models.py#L43

YSQC commented 2 years ago

得训练吧，这个预训练，肯定没有专业术语么

davidfan1224 commented 2 years ago

得拿你自己的领域数据集微调这个模型

luhua-rain / MRC_Competition_Dureader

请教法律判决书法律条文的抽取问题 #47