你好，checklist跑这套代码F1只有51左右，您是怎么做到近70的，大佬能传授下经验吗

luhua-rain / MRC_Competition_Dureader

机器阅读理解冠军/亚军代码及中文预训练MRC模型

730 stars 151 forks source link

你好，checklist跑这套代码F1只有51左右，您是怎么做到近70的，大佬能传授下经验吗 #34

Open 1749anonymous opened 3 years ago

luhua-rain commented 3 years ago

验证集51吗？

1749anonymous commented 3 years ago

验证集51吗？

验证集51吗？

训练51，测试46左右

luhua-rain commented 3 years ago

噢可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

kangyishuai commented 3 years ago

噢可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

我加载的luhua/chinese_pretrain_mrc_macbert_large和luhua/chinese_pretrain_mrc_roberta_wwm_ext_large模型权重，微调dureader2021比赛数据集，超参数和train_bert.sh脚本基本一致，就batch不一样，lr=2e-5、batch=4、epoch=2、max_answer_length=384、--version_2_with_negative，源代码也没修改，在验证集130条数据上，f1的变化[52.3077, 48.3666, 43.7441, 47.1442, 48.6656, 49.2478, 46.6051, 47.4777, 48.425, 47.5991]，随着迭代，验证集跑了10次f1，但基本在40+，但是没有找到是什么原因，请问您有没有什么解决的思路提供我参考一下？感觉batch=4也不应该和您的结果有这么大的差距才对啊

luhua-rain commented 3 years ago

验证集有两部分：checklist和indomain。checklist 130条，indomain1000条，所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个（1130条）就行。

kangyishuai commented 3 years ago

验证集有两部分：checklist和indomain。checklist 130条，indomain1000条，所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个（1130条）就行。

感谢，问题解决了

1749anonymous commented 3 years ago

验证集有两部分：checklist和indomain。checklist 130条，indomain1000条，所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个（1130条）就行。

感谢，问题解决了

您好，这一部分代码在哪里，没有找到呀

LittleFighterT commented 2 years ago

验证集有两部分：checklist和indomain。checklist 130条，indomain1000条，所以你仅仅测试130条的checklist 得分低很正常。将checklist和indomain合并成一个（1130条）就行。

感谢，问题解决了

你好！我也在尝试使用这个工程进行学习，但在过程中发现很多问题！您那边弄好了吗？是否可以提供比较完整的项目工程以供学习！谢谢！

XiaoqingNLP commented 2 years ago

噢可以试试 1、加载我发布的再训练模型进行微调 2、微调参数 lr=2e-5、batch=8、epoch=2 3、max_answer_length=384、--version_2_with_negative

我加载的luhua/chinese_pretrain_mrc_macbert_large和luhua/chinese_pretrain_mrc_roberta_wwm_ext_large模型权重，微调dureader2021比赛数据集，超参数和train_bert.sh脚本基本一致，就batch不一样，lr=2e-5、batch=4、epoch=2、max_answer_length=384、--version_2_with_negative，源代码也没修改，在验证集130条数据上，f1的变化[52.3077, 48.3666, 43.7441, 47.1442, 48.6656, 49.2478, 46.6051, 47.4777, 48.425, 47.5991]，随着迭代，验证集跑了10次f1，但基本在40+，但是没有找到是什么原因，请问您有没有什么解决的思路提供我参考一下？感觉batch=4也不应该和您的结果有这么大的差距才对啊

@kangyishuai 有试过在CMRC数据集上微调作者发布的模型吗？效果像作者说的能进一步提升吗？