Open klykq111 opened 10 months ago
终于跑完了,结果如下: | 任务 | 耗时 | 结果 |
---|---|---|---|
instruct json | 1小时40分钟 | ||
review str | 8分钟 | ||
plan json | 55分钟 | ||
plan str | 1小时8分钟 | ||
reason str | 4小时51分钟 | ||
retrieve str | 5小时 | ||
understand str | 5小时22分钟 | ||
RRU json | 4小时54分钟 |
可以看到,总共花了差不多24个小时,耗时太长了。
我用utils/convert_results.py
代码将结果进行转换后得到:
与Leaderboard (ZH)上的结果也相差太大了,这是怎么回事呢?
希望作者有时间能帮忙解答一下,非常感谢~
感谢您的反馈
感谢作者的回复,如果你们能将Leaderboard中其它模型的meta_template
也公开就好了,这样能方便对结果进行复现。
期待作者接下来的工作,将评测耗时给降下来。
@klykq111 我们看了一下这个问题,是chatglm3的tokenizer写的有点问题导致的,它的start,end字符不会呗encode成一个token,所以得走它自己的hf chat接口,我们马上会把相关的代码更新,这个是新测试的instruct的结果
defaultdict(<class 'list'>, {'json_format_metric': 0.9339, 'json_args_em_metric': 0.8186, 'string_format_metric': 0.7822, 'string_args_em_metric': 0.5689})
单卡15min就能推理完~
我目前使用chatglm3-6b模型进行评测,想要复现Leaderboard (ZH)上的结果,但是评测速度非常慢,而且结果看起来很差。 我使用的是单个H800显卡,meta_template为:
还没有跑完,目前的结果: 可以看到评测非常慢,而且instruct上的结果看起来很差。 希望作者有时间能帮忙解答一下,非常感谢~