luhua-rain / MRC_Competition_Dureader

机器阅读理解 冠军/亚军代码及中文预训练MRC模型
730 stars 151 forks source link

你好,checklist跑这套代码F1只有51左右,您是怎么做到近70的,大佬能传授下经验吗 #34

Open 1749anonymous opened 3 years ago

luhua-rain commented 3 years ago

验证集51吗?

1749anonymous commented 3 years ago

验证集51吗?

验证集51吗?

训练51,测试46左右

luhua-rain commented 3 years ago

噢 可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

kangyishuai commented 3 years ago

噢 可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

我加载的luhua/chinese_pretrain_mrc_macbert_large和luhua/chinese_pretrain_mrc_roberta_wwm_ext_large模型权重,微调dureader2021比赛数据集,超参数和train_bert.sh脚本基本一致,就batch不一样,lr=2e-5、batch=4、epoch=2、max_answer_length=384、--version_2_with_negative,源代码也没修改,在验证集130条数据上,f1的变化[52.3077, 48.3666, 43.7441, 47.1442, 48.6656, 49.2478, 46.6051, 47.4777, 48.425, 47.5991],随着迭代,验证集跑了10次f1,但基本在40+,但是没有找到是什么原因,请问您有没有什么解决的思路提供我参考一下?感觉batch=4也不应该和您的结果有这么大的差距才对啊

luhua-rain commented 3 years ago

验证集有两部分:checklist和indomain。checklist 130条,indomain1000条,所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个(1130条)就行。

kangyishuai commented 3 years ago

验证集有两部分:checklist和indomain。checklist 130条,indomain1000条,所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个(1130条)就行。

感谢,问题解决了

1749anonymous commented 3 years ago

验证集有两部分:checklist和indomain。checklist 130条,indomain1000条,所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个(1130条)就行。

感谢,问题解决了

您好,这一部分代码在哪里,没有找到呀

LittleFighterT commented 2 years ago

验证集有两部分:checklist和indomain。checklist 130条,indomain1000条,所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个(1130条)就行。

感谢,问题解决了

你好!我也在尝试使用这个工程进行学习,但在过程中发现很多问题!您那边弄好了吗?是否可以提供比较完整的项目工程以供学习!谢谢!

XiaoqingNLP commented 2 years ago

噢 可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

我加载的luhua/chinese_pretrain_mrc_macbert_large和luhua/chinese_pretrain_mrc_roberta_wwm_ext_large模型权重,微调dureader2021比赛数据集,超参数和train_bert.sh脚本基本一致,就batch不一样,lr=2e-5、batch=4、epoch=2、max_answer_length=384、--version_2_with_negative,源代码也没修改,在验证集130条数据上,f1的变化[52.3077, 48.3666, 43.7441, 47.1442, 48.6656, 49.2478, 46.6051, 47.4777, 48.425, 47.5991],随着迭代,验证集跑了10次f1,但基本在40+,但是没有找到是什么原因,请问您有没有什么解决的思路提供我参考一下?感觉batch=4也不应该和您的结果有这么大的差距才对啊

@kangyishuai 有试过在CMRC数据集上微调作者发布的模型吗?效果像作者说的能进一步提升吗?