Open randomtutu opened 9 months ago
+1
Hi,
Thanks for asking! The code for evaluating on Book QA from Infinibench is now updated, just follow the updated instruction on README would do
Cheers!
我在评测基础模型时候,试了下修改大海捞针评测里的prompt,从问答式(Question: What's the best...? Answer:)改为了续写式(The best thing to do in SF is ),捞针效果提升显著,也证明了对基础模型来讲,没捞到针不一定意味着没看到针?另外也在想,对基础模型来讲,QA式的大海捞针评测的适用性是不是要打个折扣呢?续写式的评测是不是更接近真正想评测的目标?
我在评测基础模型时候,试了下修改大海捞针评测里的prompt,从问答式(Question: What's the best...? Answer:)改为了续写式(The best thing to do in SF is ),捞针效果提升显著,也证明了对基础模型来讲,没捞到针不一定意味着没看到针?另外也在想,对基础模型来讲,QA式的大海捞针评测的适用性是不是要打个折扣呢?续写式的评测是不是更接近真正想评测的目标?
I very much agree with your point!
And I tend to believe that the current zero-shot eval for base model severely underestimate its potential, and one definitely eventually wants to eval the model after instruction tuning.
The problem is there is no instruction tuning data in the regime of 100K
我自己的看法,openai大概在gpt3 之前就遇到了这个问题,评估很不准,导致策略无法迭代。 他们研究scaling law的原因或许就是因为小的策略评来评去,有高有低,不如直接scaling。 就算是有了sft的数据,测试sft阶段的指标,不能完全代表pretrain阶段的模型好坏。
hi, 作者你好
最近看到了这篇非常棒的paper,很感谢你的工作。
在一些细节方面想请教一下。具体的就是pretrain阶段的model,follow instruction能力应该比较差,很多时候我自己尝试测试时,特别是context较长的情况下,会不停的续写、重复、很少有能够比较完整的回答问题的能力,我比较好奇文中的测试的方法是什么,可以让pretrain模型在context比较长的情况下做到。
祝好!