关于确认CEval可以被hack之后的计划

yucc-leon commented 1 year ago

近期许多模型仿佛一夜之间就“突飞猛进”了，在CEval上狂刷分数，导致该榜单的可参考性有所下降。请问是否后续会继续在该工作上进行相关迭代？亦或是打算设计新的方式方法？

FranxYao commented 1 year ago

我们在考虑办一个 Hack C-Eval 和 MMLU 的比赛，解除测试数据泄漏之外的所有限制，包括可以 distiall GPT 4 也可以不考虑能力平衡，让开源社区一起想办法找到最好的 hack C-Eval 的方法，然后看看 7B 的模型到底可以被 hack 到什么程度

我们现在的假设是当解除所有限制之后，7B 的模型可以在牺牲其他方向能力的条件下，在 C-Eval 上被 hack 到 13B 的效果，但 hack 可能存在上限，7B 应该不大能被 hack 到 70B 的效果。

然后我们鼓励大家分享最有效的 hack C-Eval 的方法，我们相信这些 hack 的方法以及对它们的深入研究本身也可以促进中文大模型的发展。

当然开源社区智慧无穷，如果真的有人可以拿 7B 的模型做出 70B 的效果，那就更值得学习了

leefirefly commented 1 year ago

现在的问题是榜单上面的7B模型能力有点过于夸张，某些科目能到九十多分，明显不合理，这种针对性补强的恶意打榜是否应该设计对应的筛查工作和更严格的名次开放审核。

FoolMark commented 1 year ago

我猜还有一个没有公开的test集合哈哈，那些开源的模型拿来测测gap就知道有没有作弊了

hkust-nlp / ceval