hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]
https://cevalbenchmark.com/
MIT License
1.64k stars 78 forks source link

lm-evaluation-harness 是用test集测评的吗? #44

Closed ChangyuanWu closed 1 year ago

ChangyuanWu commented 1 year ago

你好,最近我在用lm-evaluation-harness进行模型测评。 但是根据lm-evaluation-harness的task_table显示只有val集并且数量较少。请问如果我使用lm-evaluation-harness进行测评的时候,会使用test集的结果评估,还是val的结果评估?

image
HYZ17 commented 1 year ago

由于lm-evaluation-harness需要公开答案,因此我们使用的是val集。谢谢