如何评测GPT-3.5或GPT-4

THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MIT License

675 stars 54 forks source link

Closed jing-my closed 9 months ago

jing-my commented 10 months ago

好像只提供了开源模型的预测和评测，所以请想问下如何复现GPT的评测结果呢？

bys0318 commented 10 months ago

您好，复现GPT的结果只需在pred.py的get_pred()中使用通过API的调用得到预测结果pred即可。

jing-my commented 10 months ago

请问是直接把prompt作为messages吗？samsum或者其它数据集是否需要什么额外的设置吗？

bys0318 commented 10 months ago

是的，不需要额外的设置