THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
MIT License
675 stars 54 forks source link

如何评测GPT-3.5或GPT-4 #47

Closed jing-my closed 9 months ago

jing-my commented 10 months ago

好像只提供了开源模型的预测和评测,所以请想问下如何复现GPT的评测结果呢?

bys0318 commented 10 months ago

您好,复现GPT的结果只需在pred.pyget_pred()中使用通过API的调用得到预测结果pred即可。

jing-my commented 10 months ago

请问是直接把prompt作为messages吗?samsum或者其它数据集是否需要什么额外的设置吗?

bys0318 commented 10 months ago

是的,不需要额外的设置