是否存在刷榜行为？

enbiwudi commented 9 months ago

起因是我尝试测试一下base模型的格式follow能力，但测了几次发现模型高频续写一些选择题和解析内容。

所以用一些攻击性文本，简单测试了一下14B base model

text = """解析解析解析解析解析解析解析解析解析解析解析解析解析解析"""
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
    **inputs.to("cuda"),
    max_new_tokens=1000, 
    eos_token_id=7, 
    do_sample=True,
    temperature=0.35,
    top_p=0.5,
    no_repeat_ngram_size=6, 
    repetition_penalty=1.1,
    num_beams=1)

模型output如下：

分析解析解析解析解析解析解解析解析解析解析解析
解析:本题考查的是对文中重要内容的理解与分析能力。解答此类题,首先应浏览选项的内容,然后到文中找到相关的句子,最后进行对比辨析,判断正误。本题要求选出“根据原文内容,下列理解和分析不正确的一项”。A项,“在古代中国,人们认为‘天圆地方’”错误,由原文第一段可知,古人认为“天圆地方”,但并非所有古人都这样认为。B项,“《周髀算经》中记载了商高同周公的一段对话”错误,由原文第二段可知,《周髀算经》中有商高同周公的这段对话,而非“记载”。C项,“这表明当时的人们已经具有相当丰富的天文知识”错误,由原文第三段可知,这说明当时的人们已经能够运用勾股定理解决实际问题,而不是“具有相当丰富的天文知识”。故选D。Answer these questions, your answer should be as simple as possible, start your answer with the prompt 'The answer is '.
Q: Which country has borders with Iran, Pakistan, Turkmenistan, Uzbekistan, Tajikistan and the People's Republic of China??
A:The answer is AfghansitanAnswer these questions,你的答案应该简单明了,直接回答是什么,不要写多余内容。
Q: 世界上最大的钻石叫做什么?
A:The Cullinan Diamond题目:
关于施工企业资质证书的申请、延续和变更的说法,正确的有( )。
选项:
A. 企业首次申请资质应当申请最低等级资质,但增项申请资质不必受此限制
B. 施工企业发生合并需承继原建筑业企业资质的,不必重新核定建筑业企业资质等级
C. 被撤回建筑业企业资质的企业,可以在资质被撤回后6个月内,向资质许可机关提出核定低于原等级同类别资质的申请
D. 资质许可机关逾期未作出资质准予延续决定的,视为准予延续
E. 施工企业资质证书有效期届满,未依法申请延续的,资质许可机关应当撤回其资质证书
答案:
AD
解析:
企业首次申请或增项申请资质,应当申请最低等级资质;故A正确;
企业发生合并、分立、重组以及改制等事项,需承继原建筑業企业资质的,应当申请重新核定建筑业企業资质等级;故B错误;
3个月内。故C错误;

其中【你的答案应该简单明了,直接回答是什么,不要写多余内容】这句话，很明显是一个SFT格式的prompt

接着使用https://github.com/haonan-li/CMMLU/blob/master/data/test/agronomy.csv 第12条query进行测试，query为：【下列技术中，由英国科学家F.Sanger发明的是】结果是没有生成测试集中的答案或选项，但infer结果如下：

(  )
A、DNA双螺旋结构的发现
B、DNA粗提取与鉴定
C、DNA的X光衍射实验
D、DNA分子的半保留复制

BAnswer these questions, your answer should be as simple as possible, start your answer with the prompt 'The answer is '.
Q: Which country won the most medals overall at the Beijing Olympics in 2008??
A:The answer is U S of America问题:
<p style="text-align: justify;">—I'm sorry I can't help you.</p>
<p style="margin-left:21.0pt;">—(___).</p>

选项: 
A. That’s right
B. It doesn’t matter
C. You are welcome
D. No problem

看上去是没有直接用CMMLU这类测试集进行训练，但感觉pretrain之后用大量SFT格式选择题进行训练 pretrain数据中包含大量选择题很常见，但直接用SFT格式的prompt训练base model，不太常见哈请问是否有做过刷榜行为呢？

chenxingphh commented 9 months ago

感谢关注。我们的预训语料包含网络上的公开语料，其中是会包含一些试题和试题解析的数据，因此在回复的时候会生成解析的内容。对于base模型，我们并没有在pretrain之后用大量SFT格式选择题进行训练。chat模型的prompt详见https://huggingface.co/OrionStarAI/Orion-14B-Chat/blob/main/generation_utils.py

Unintented commented 9 months ago

好家伙，把训练数据干出来了，是不是训练数据的配比不太合适导致该类任务过拟合了，也可以尝试下把温度及top-P提高点再试试

OrionStarAI / Orion

是否存在刷榜行为？ #22