Closed lx86110 closed 5 years ago
我用的1080 12g,大概训练的1周时间, 单模型的准确率从我问大家提交的线上f1来看,大概在92%左右。 如果想要更高的分数,可能需要把模型的参数改的更深更大一些,当然需要的计算资源就会更多,训练时间也会更长。我也好久没做这个了,更好的上分方式,你可以加组织方的群去跟大神们讨论一下。
谢谢 我还想问下预训练过程是否剔除了NSP任务?Masked LM子任务的训练结果怎么样呢?
对的 语料库只给定了一句话,看起来并不是文章,所以句子之间也就不存在什么关系了。 另外,最新的好几篇论文都把NSP这个任务去掉了,看起来性能不仅没有下降,反而在大多数任务上都略有提升。 训练结果的话,按照我自己划分的数据集,损失我是降到了1.48左右,
好的,非常感谢
好的 不用客气
你好,我想问下你的预训练过程的的机器配置和训练时长,以及最终预训练模型任务的准确率多高 谢谢