baichuan-inc / Baichuan2

A series of large language models developed by Baichuan Intelligent Technology
https://huggingface.co/baichuan-inc
Apache License 2.0
4.09k stars 295 forks source link

请问是否能提供一些公开数据集的评测方法? #89

Open cgq0816 opened 1 year ago

cgq0816 commented 1 year ago

image 这里对HumanEval和GSM8K评测都比较低,请问能否提供一些公开数据集的方法吗?谢谢

coorful commented 1 year ago

同问,请问humaneval使用的是1@pass吗? @cgq0816 @bc-gpd

cgq0816 commented 1 year ago

同问,请问humaneval使用的是1@pass吗? @cgq0816

是的,用其他公开的评测方法评测的

LiuLinyun commented 1 year ago

同问,我 Baichuan2-13b-Base 在 GSM8k 上使用 OpenCompass 4-shot 评估,得分是 18.73,官方给的论文还有 Repo 里面的得分是 52.77 分,我也想知道是不是评测方式存在差异 @baichuan-assistant

paraGONG commented 11 months ago

同问

TingchenFu commented 9 months ago

+1 我用baichuan-2-7b-base跑humaneval,pass@1的结果也只有三点多