chatglm3-6b-32k的中文测试结果远远低于README里的benchmark

THUDM / LongBench

[ACL 2024] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

MIT License

675 stars 54 forks source link

Closed Strivin0311 closed 8 months ago

Strivin0311 commented 8 months ago

我个人在longbench的5个中文任务上测试了一下chatglm3-6b-32k的分数，用的默认的load方式和默认的generation_config参数，也用了greedy search的参数，但是结果远远低于README里记录的benchmark（分数如下所示），想请问一下你们测试的时候，是用的什么generation_config呀？	task	my score (default sampling)	my score (greed search)
vcsum	0.165	0.167	0.178
multifieldqa_zh	0.537	0.545	0.623
dureader	0.388	0.415	0.448
lsht	0.181	0.281	0.420
passage_retrieval_zh	0.400	0.345	0.940

Strivin0311 commented 8 months ago

用了新版的代码，分数已经和官方的一致了，问题应该出在chatglm3的build_chat部分~

bys0318 commented 8 months ago

嗯对，是这样的

BeautyCJ commented 5 months ago

请问官方发布的benchmark中各模型是如何解码的？greedy search（top_p=0, temperature=1）吗？@bys0318

BeautyCJ commented 5 months ago

用了新版的代码，分数已经和官方的一致了，问题应该出在chatglm3的build_chat部分~

请问这里用的是 greedy search解码吗？如果用generation_config里的跑出来差别大吗？

bys0318 commented 5 months ago

请问官方发布的benchmark中各模型是如何解码的？greedy search（top_p=1, temperature=1）吗？@bys0318

是的