lm-evaluation-harness 是用test集测评的吗？

hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]

https://cevalbenchmark.com/

MIT License

1.64k stars 78 forks source link

Closed ChangyuanWu closed 1 year ago

ChangyuanWu commented 1 year ago

你好，最近我在用lm-evaluation-harness进行模型测评。但是根据lm-evaluation-harness的task_table显示只有val集并且数量较少。请问如果我使用lm-evaluation-harness进行测评的时候，会使用test集的结果评估，还是val的结果评估？

HYZ17 commented 1 year ago

由于lm-evaluation-harness需要公开答案，因此我们使用的是val集。谢谢