mtbench101 / mt-bench-101

[ACL 2024] MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues
Apache License 2.0
35 stars 4 forks source link

OpenCompass 实现提示词格式对人不友好 #7

Closed Leymore closed 2 months ago

Leymore commented 2 months ago

当前版本提示词中存在换行缺失、行末空格、行首空格、双空行、无序列表缺标号 等问题。尽管这对 LLM 影响可能不大,但是对人在视觉上不友好。想了解下该实现是否有特殊考量?

我尝试优化了一份提示词,可供参考。

https://github.com/open-compass/opencompass/pull/1273

sefira commented 2 months ago

感谢您对MT-Bench-101的关注!

确实将\n换成真实的换行,加上序号列表等会有助于人类的可视化。不过由于对LLMs影响较小,并且为了和原文实验保持一致,我们暂时不会更新这个格式。 如果有需要的话你可以采用自己的格式,并且欢迎反馈前后两种格式的Evaluation Results Diff。

Leymore commented 2 months ago

好的,谢谢回复