Closed GZL11 closed 5 months ago
你设定了上下文最大的长度 session_len 是 2048 在请求的时候,要求token最多生成 2048 个 token
这样的话,n_input_token + max_new_token (2048) > session_len (2048)。在这种情况下,直接返回空。
你可以使用小一些的 max_new_token,或者把 max_new_token 设置为 None,让 lmdeploy 来计算最多能生成多少。
Checklist
Describe the bug
无论是使用pytorch还是turbmind后端,模型的输出都为空 [Response(text='', generate_token_len=0, input_token_len=742, session_id=0, finish_reason='length', token_ids=[], logprobs=None)]
Reproduction
""" inference test """
import os import json import torch import requests import time import numpy as np
from tqdm import tqdm from peft import PeftModel from transformers import AutoConfig, AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig import lmdeploy from lmdeploy import pipeline, GenerationConfig, PytorchEngineConfig, TurbomindEngineConfig
from src.utils.build_prompt import build_prompt_map
os instructions
os.system("nvidia-smi")
def memory_use_compute(model, type_size: int=2):
model.parameters()取出这个model所有的权重参数
def main(): resp_label_list = ["A", "B", "C"] train_model_adapter_path = "/mnt/bn/internlm218b/checkpoint-15000"
if name == "main": main()
Environment
Error traceback