hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]
https://cevalbenchmark.com/
MIT License
1.63k stars 78 forks source link

模型是否真正掌握了相关知识而不是在猜答案? #61

Closed yucc-leon closed 1 year ago

yucc-leon commented 1 year ago

好奇是否有人测过让模型输出过程解析,或者对题目做一些扰动/变换处理,看某些高分模型是否仍然能够答对 考虑到题目总量,如果输出解析过程评测可能会比较复杂,但如果想得出结论,随机抽样几十个就能得到结论。

Duan-JM commented 1 year ago

我在gpt3.5 上做过,输入一个leetcode题,能正确输出答案。然后用小明小王这样子用自己语言重新描述下题,有很大概率输出就错了。

你也可以试试,变换围绕这context的输入顺序,表达方式变化。

yucc-leon @.***>于2023年10月8日 周日13:02写道:

好奇是否有人测过让模型输出过程解析,或者对题目做一些扰动/变换处理,看某些高分模型是否仍然能够答对 考虑到题目总量,如果输出解析过程评测可能会比较复杂,但如果想得出结论,随机抽样几十个就能得到结论。

— Reply to this email directly, view it on GitHub https://github.com/hkust-nlp/ceval/issues/61, or unsubscribe https://github.com/notifications/unsubscribe-auth/AILGYTQMRPHYIASV3Q3CNR3X6IXU7AVCNFSM6AAAAAA5XNM766VHI2DSMVQWIX3LMV43ASLTON2WKOZRHEZTCNRUG42TIOI . You are receiving this because you are subscribed to this thread.Message ID: @.***>

yucc-leon commented 1 year ago

我在gpt3.5 上做过,输入一个leetcode题,能正确输出答案。然后用小明小王这样子用自己语言重新描述下题,有很大概率输出就错了。 你也可以试试,变换围绕这context的输入顺序,表达方式变化。 yucc-leon @.>于2023年10月8日 周日13:02写道: 好奇是否有人测过让模型输出过程解析,或者对题目做一些扰动/变换处理,看某些高分模型是否仍然能够答对 考虑到题目总量,如果输出解析过程评测可能会比较复杂,但如果想得出结论,随机抽样几十个就能得到结论。 — Reply to this email directly, view it on GitHub <#61>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AILGYTQMRPHYIASV3Q3CNR3X6IXU7AVCNFSM6AAAAAA5XNM766VHI2DSMVQWIX3LMV43ASLTON2WKOZRHEZTCNRUG42TIOI . You are receiving this because you are subscribed to this thread.Message ID: @.>

我在CEval之外的数据上试过一些类似的case,正确率比较惨……所以本意是觉得像CEval这种题目在广域语料中应该是存在挺多辅助数据,表现可能会更好一些?不然还挺泼冷水的

jxhe commented 1 year ago

我们对gpt3.5和chatGLM做过shuffle ABCD顺序的实验,对总体结果影响不大,得到平均准确率的variance很小。我们generally认为如果模型预训练没有特地针对ceval类似的考试数据调优的话,ceval可以反应模型的整体knowledge水平;如果模型预训练就已经针对性对ceval类考试题目调优过分overfit,那么ceval也许只能反应模型的学科考试水平。我们的初衷是希望开发者以前者作为practice,这样ceval才能更大发挥其对于开发的帮助作用