请问开源的CodeGeex2模型是否为论文中Humaneval=35%的模型？

THUDM / CodeGeeX2

CodeGeeX2: A More Powerful Multilingual Code Generation Model

https://codegeex.cn

Apache License 2.0

7.6k stars 536 forks source link

请问开源的CodeGeex2模型是否为论文中Humaneval=35%的模型？ #84

Open sxthunder opened 11 months ago

sxthunder commented 11 months ago

线下推理了一下CodeGeex2：N_sample=1，top_p=0.95, top_k=40, do_sample=True，结果为28%

sxthunder commented 11 months ago

@Stanislas0

Stanislas0 commented 11 months ago

线下推理了一下CodeGeex2：N_sample=1，top_p=0.95, top_k=40, do_sample=True，结果为28%

开源版本就是HumanEval 35%的模型，你的超参数设置有问题，temperature=0.2，不需要开top_k

sxthunder commented 11 months ago

线下推理了一下CodeGeex2：N_sample=1，top_p=0.95, top_k=40, do_sample=True，结果为28%

开源版本就是HumanEval 35%的模型，你的超参数设置有问题，temperature=0.2，不需要开top_k

请问N_sample影响大吗？

Stanislas0 commented 11 months ago

线下推理了一下CodeGeex2：N_sample=1，top_p=0.95, top_k=40, do_sample=True，结果为28%

开源版本就是HumanEval 35%的模型，你的超参数设置有问题，temperature=0.2，不需要开top_k

请问N_sample影响大吗？

n_sample越大估计的越准，不然受随机性影响较大。如果n_sample=1，建议直接用greedy。表格中的结果是n_sample=20测出来的

sxthunder commented 11 months ago

线下推理了一下CodeGeex2：N_sample=1，top_p=0.95, top_k=40, do_sample=True，结果为28%

开源版本就是HumanEval 35%的模型，你的超参数设置有问题，temperature=0.2，不需要开top_k

请问N_sample影响大吗？

n_sample越大估计的越准，不然受随机性影响较大。如果n_sample=1，建议直接用greedy。表格中的结果是n_sample=20测出来的

top_k修改为0后结果为33%，是正常水位，多谢