Open LKAMING97 opened 2 months ago
{
"0": {
"origin_prompt": [
{
"role": "HUMAN",
"prompt": "根据下列事实、罪名和刑法法条预测判决刑期。只需给出判决刑期为多少月,请将答案填在[刑期]与
看起来像是没传stop words和max out len,https://github.com/open-compass/opencompass/blob/9693be46b7070ddd8e5e25dc71dec126bdbae8b2/configs/models/chatglm/hf_glm4_9b_chat.py#L11 推荐用--models hf_glm4_9b_chat的方式启动
然后我将该文件下的模型路径改为本地是吗
发自我的iPhone
------------------ 原始邮件 ------------------ 发件人: bittersweet1999 @.> 发送时间: 2024年9月2日 16:17 收件人: open-compass/opencompass @.> 抄送: LKAMING @.>, Author @.> 主题: Re: [open-compass/opencompass] [Bug] 使用最新版本的glm4-9b-chat在Lawbench上推理会重复生成 (Issue #1477)
看起来像是没传stop words和max out len,https://github.com/open-compass/opencompass/blob/9693be46b7070ddd8e5e25dc71dec126bdbae8b2/configs/models/chatglm/hf_glm4_9b_chat.py#L11。 推荐用--models hf_glm4_9b_chat的方式启动
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
yes
yes
那我其他参数需要修改吗,因为我想用vllm进行推理
不用 你-a vllm
了就行
目前shell脚本修改为
CUDA_VISIBLE_DEVICES=0,1,2,3 python run.py --models hf_glm4_9b_chat --datasets lawbench_zero_shot_gen_002588 -w ./outputs/$model_name --hf-num-gpus 4 --mode all -a vllm
model文件修改为
from opencompass.models import HuggingFacewithChatTemplate
models = [
dict(
type=HuggingFacewithChatTemplate,
abbr='glm-4-9b-chat-hf',
#path='THUDM/glm-4-9b-chat',
path = '/root/autodl-tmp/ZhipuAI/glm-4-9b-chat',
max_out_len=1024,
batch_size=8,
run_cfg=dict(num_gpus=4),
stop_words=['<|endoftext|>', '<|user|>', '<|observation|>'],
)
]
还是会重复,不停输出
其他模型会吗?或者GLM4测其他数据集会重复吗
正常来说-a vllm
应该是可以的,或者你试试这个config
https://github.com/open-compass/opencompass/blob/main/configs/models/chatglm/vllm_glm4_9b_chat.py
就是换成--model vllm_glm4_9b_chat
看看
其他模型会吗?或者GLM4测其他数据集会重复吗
测试了qwen2,chatglm3,yi1.5都不会,以下是chatglm3的回答
正常来说
-a vllm
应该是可以的,或者你试试这个config https://github.com/open-compass/opencompass/blob/main/configs/models/chatglm/vllm_glm4_9b_chat.py 就是换成--model vllm_glm4_9b_chat
看看
same results,我不知道是不是模型那里有问题,我更新了一次还是会这样
按理说用
-a vllm
,stop_words也传进去了呀
你们那边可以用这个模型测试一下吗
那你看看模型是不是最新的,然后还有一个点就是你可以开sampling试试,可能这个模型greedy的时候表现就是这样的
from opencompass.models import HuggingFacewithChatTemplate
models = [ dict( type=HuggingFacewithChatTemplate, abbr='glm-4-9b-chat-hf',
path = '/root/autodl-tmp/ZhipuAI/glm-4-9b-chat',
max_out_len=1024,
batch_size=8,
run_cfg=dict(num_gpus=4),
stop_words=['<|endoftext|>', '<|user|>', '<|observation|>'],
generation_kwargs={do_sample=True}
)
]
按理说用
-a vllm
,stop_words也传进去了呀 https://github.com/open-compass/opencompass/blob/9693be46b7070ddd8e5e25dc71dec126bdbae8b2/opencompass/utils/run.py#L309你们那边可以用这个模型测试一下吗
暂时没卡了,都在跑别的实验
按理说用
-a vllm
,stop_words也传进去了呀 https://github.com/open-compass/opencompass/blob/9693be46b7070ddd8e5e25dc71dec126bdbae8b2/opencompass/utils/run.py#L309你们那边可以用这个模型测试一下吗
暂时没卡了,都在跑别的实验
那劳烦到时候有卡帮忙测试一下,我现在先试试开采样解码
先决条件
问题类型
我正在使用官方支持的任务/模型/数据集进行评估。
环境
重现问题 - 代码/配置示例
重现问题 - 命令或脚本
重现问题 - 错误信息
其他信息
No response