模型是否真正掌握了相关知识而不是在猜答案？

yucc-leon commented 1 year ago

好奇是否有人测过让模型输出过程解析，或者对题目做一些扰动/变换处理，看某些高分模型是否仍然能够答对考虑到题目总量，如果输出解析过程评测可能会比较复杂，但如果想得出结论，随机抽样几十个就能得到结论。

Duan-JM commented 1 year ago

我在gpt3.5 上做过，输入一个leetcode题，能正确输出答案。然后用小明小王这样子用自己语言重新描述下题，有很大概率输出就错了。

你也可以试试，变换围绕这context的输入顺序，表达方式变化。

yucc-leon @.***>于2023年10月8日周日13:02写道：

好奇是否有人测过让模型输出过程解析，或者对题目做一些扰动/变换处理，看某些高分模型是否仍然能够答对考虑到题目总量，如果输出解析过程评测可能会比较复杂，但如果想得出结论，随机抽样几十个就能得到结论。

— Reply to this email directly, view it on GitHub https://github.com/hkust-nlp/ceval/issues/61, or unsubscribe https://github.com/notifications/unsubscribe-auth/AILGYTQMRPHYIASV3Q3CNR3X6IXU7AVCNFSM6AAAAAA5XNM766VHI2DSMVQWIX3LMV43ASLTON2WKOZRHEZTCNRUG42TIOI . You are receiving this because you are subscribed to this thread.Message ID: @.***>

yucc-leon commented 1 year ago

我在gpt3.5 上做过，输入一个leetcode题，能正确输出答案。然后用小明小王这样子用自己语言重新描述下题，有很大概率输出就错了。你也可以试试，变换围绕这context的输入顺序，表达方式变化。 yucc-leon @.>于2023年10月8日周日13:02写道： … 好奇是否有人测过让模型输出过程解析，或者对题目做一些扰动/变换处理，看某些高分模型是否仍然能够答对考虑到题目总量，如果输出解析过程评测可能会比较复杂，但如果想得出结论，随机抽样几十个就能得到结论。 — Reply to this email directly, view it on GitHub <#61>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AILGYTQMRPHYIASV3Q3CNR3X6IXU7AVCNFSM6AAAAAA5XNM766VHI2DSMVQWIX3LMV43ASLTON2WKOZRHEZTCNRUG42TIOI . You are receiving this because you are subscribed to this thread.Message ID: @.>

我在CEval之外的数据上试过一些类似的case，正确率比较惨……所以本意是觉得像CEval这种题目在广域语料中应该是存在挺多辅助数据，表现可能会更好一些？不然还挺泼冷水的

jxhe commented 1 year ago

我们对gpt3.5和chatGLM做过shuffle ABCD顺序的实验，对总体结果影响不大，得到平均准确率的variance很小。我们generally认为如果模型预训练没有特地针对ceval类似的考试数据调优的话，ceval可以反应模型的整体knowledge水平；如果模型预训练就已经针对性对ceval类考试题目调优过分overfit，那么ceval也许只能反应模型的学科考试水平。我们的初衷是希望开发者以前者作为practice，这样ceval才能更大发挥其对于开发的帮助作用

hkust-nlp / ceval

模型是否真正掌握了相关知识而不是在猜答案？ #61