Open Riroaki opened 3 years ago
正好有同样的问题想问。我这边在SuperGLUE上的实验发现有几个数据集分数与随机数种子有很高的关联性(与使用的代码关联性就更高了,用Jiant和Allennlp跑出来分数差异也有几个点)。CB这个数据集甚至能从70多波动到90多。不知道作者是怎么处理这些随机因素的?
CB这个数据集,只用BERT-BASE-UNCASE跑十次随机数种子,差别也能到这个程度(Jiant的结果)。<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns="http://www.w3.org/TR/REC-html40">
f13_bb -- 0.912281 0.866667 0.867925 0.945455 0.867925 0.857143 0.915254 0.912281 0.836364 0.912281
您好,我在复现Few-shot SuperGLUE(即
FewGLUE_32dev
数据)实验时,CB、WSC、COPA数据集的结果和论文中存在一定差距(复现实验所有模型均基于albert-xxlarge-v2
这一个预训练模型,与论文设计一致,实验seed=42无修改):实验设置差异:
关于CB数据集的实验
关于WSC数据集的实验
关于COPA数据集的实验
python库版本差异
考虑到可能存在版本差异影响造成复现效果不同,在此列出与requirements.txt对应的python库版本(括号中为项目requirements的库版本):
设备差异
全部复现实验在单张
GeForce RTX 3090
上进行。请问如何理解模型效果的差异?