OrionStarAI / Orion

Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。
Apache License 2.0
785 stars 57 forks source link

是否存在刷榜行为? #22

Open enbiwudi opened 9 months ago

enbiwudi commented 9 months ago

起因是我尝试测试一下base模型的格式follow能力,但测了几次发现模型高频续写一些选择题和解析内容。

所以用一些攻击性文本,简单测试了一下14B base model

text = """解析解析解析解析解析解析解析解析解析解析解析解析解析解析"""
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
    **inputs.to("cuda"),
    max_new_tokens=1000, 
    eos_token_id=7, 
    do_sample=True,
    temperature=0.35,
    top_p=0.5,
    no_repeat_ngram_size=6, 
    repetition_penalty=1.1,
    num_beams=1)

模型output如下:

分析解析解析解析解析解析解解析解析解析解析解析
解析:本题考查的是对文中重要内容的理解与分析能力。解答此类题,首先应浏览选项的内容,然后到文中找到相关的句子,最后进行对比辨析,判断正误。本题要求选出“根据原文内容,下列理解和分析不正确的一项”。A项,“在古代中国,人们认为‘天圆地方’”错误,由原文第一段可知,古人认为“天圆地方”,但并非所有古人都这样认为。B项,“《周髀算经》中记载了商高同周公的一段对话”错误,由原文第二段可知,《周髀算经》中有商高同周公的这段对话,而非“记载”。C项,“这表明当时的人们已经具有相当丰富的天文知识”错误,由原文第三段可知,这说明当时的人们已经能够运用勾股定理解决实际问题,而不是“具有相当丰富的天文知识”。故选D。Answer these questions, your answer should be as simple as possible, start your answer with the prompt 'The answer is '.
Q: Which country has borders with Iran, Pakistan, Turkmenistan, Uzbekistan, Tajikistan and the People's Republic of China??
A:The answer is AfghansitanAnswer these questions,你的答案应该简单明了,直接回答是什么,不要写多余内容。
Q: 世界上最大的钻石叫做什么?
A:The Cullinan Diamond题目:
关于施工企业资质证书的申请、延续和变更的说法,正确的有( )。
选项:
A. 企业首次申请资质应当申请最低等级资质,但增项申请资质不必受此限制
B. 施工企业发生合并需承继原建筑业企业资质的,不必重新核定建筑业企业资质等级
C. 被撤回建筑业企业资质的企业,可以在资质被撤回后6个月内,向资质许可机关提出核定低于原等级同类别资质的申请
D. 资质许可机关逾期未作出资质准予延续决定的,视为准予延续
E. 施工企业资质证书有效期届满,未依法申请延续的,资质许可机关应当撤回其资质证书
答案:
AD
解析:
企业首次申请或增项申请资质,应当申请最低等级资质;故A正确;
企业发生合并、分立、重组以及改制等事项,需承继原建筑業企业资质的,应当申请重新核定建筑业企業资质等级;故B错误;
3个月内。故C错误;

其中【你的答案应该简单明了,直接回答是什么,不要写多余内容】这句话,很明显是一个SFT格式的prompt

接着使用https://github.com/haonan-li/CMMLU/blob/master/data/test/agronomy.csv 第12条query进行测试,query为: 【下列技术中,由英国科学家F.Sanger发明的是】 结果是没有生成测试集中的答案或选项,但infer结果如下:

(  )
A、DNA双螺旋结构的发现
B、DNA粗提取与鉴定
C、DNA的X光衍射实验
D、DNA分子的半保留复制

BAnswer these questions, your answer should be as simple as possible, start your answer with the prompt 'The answer is '.
Q: Which country won the most medals overall at the Beijing Olympics in 2008??
A:The answer is U S of America问题:
<p style="text-align: justify;">—I'm sorry I can't help you.</p>
<p style="margin-left:21.0pt;">—(___).</p>

选项: 
A. That’s right
B. It doesn’t matter
C. You are welcome
D. No problem

看上去是没有直接用CMMLU这类测试集进行训练,但感觉pretrain之后用大量SFT格式选择题进行训练 pretrain数据中包含大量选择题很常见,但直接用SFT格式的prompt训练base model,不太常见哈 请问是否有做过刷榜行为呢?

chenxingphh commented 9 months ago

感谢关注。我们的预训语料包含网络上的公开语料,其中是会包含一些试题和试题解析的数据,因此在回复的时候会生成解析的内容。对于base模型,我们并没有在pretrain之后用大量SFT格式选择题进行训练。chat模型的prompt详见https://huggingface.co/OrionStarAI/Orion-14B-Chat/blob/main/generation_utils.py

Unintented commented 9 months ago

好家伙,把训练数据干出来了,是不是训练数据的配比不太合适导致该类任务过拟合了,也可以尝试下把温度及top-P提高点再试试