Open enbiwudi opened 9 months ago
感谢关注。我们的预训语料包含网络上的公开语料,其中是会包含一些试题和试题解析的数据,因此在回复的时候会生成解析的内容。对于base模型,我们并没有在pretrain之后用大量SFT格式选择题进行训练。chat模型的prompt详见https://huggingface.co/OrionStarAI/Orion-14B-Chat/blob/main/generation_utils.py
好家伙,把训练数据干出来了,是不是训练数据的配比不太合适导致该类任务过拟合了,也可以尝试下把温度及top-P提高点再试试
起因是我尝试测试一下base模型的格式follow能力,但测了几次发现模型高频续写一些选择题和解析内容。
所以用一些攻击性文本,简单测试了一下14B base model
模型output如下:
其中【你的答案应该简单明了,直接回答是什么,不要写多余内容】这句话,很明显是一个SFT格式的prompt
接着使用https://github.com/haonan-li/CMMLU/blob/master/data/test/agronomy.csv 第12条query进行测试,query为: 【下列技术中,由英国科学家F.Sanger发明的是】 结果是没有生成测试集中的答案或选项,但infer结果如下:
看上去是没有直接用CMMLU这类测试集进行训练,但感觉pretrain之后用大量SFT格式选择题进行训练 pretrain数据中包含大量选择题很常见,但直接用SFT格式的prompt训练base model,不太常见哈 请问是否有做过刷榜行为呢?