Closed ZhuXuesong7423 closed 4 months ago
使用langchain-chatchat 运行 CUDA版本:12.2 transformers 版本:4.37.2 python 版本:3.11.7 操作系统:Ubuntu 20.04.6
No response
模型地址配置完成后,直接运行 模型可以启动,但是向模型提问(stream模式),会先返回一个字(1 token),然后就会报错:
| File "/home/ubuntu/.cache/huggingface/modules/transformers_modules/cogvlm2-llama3-19b-chinese/modeling_cogvlm.py", line 94, in get_expert_mask | vision_token_mask = torch.zeros_like(token_type_ids, dtype=torch.bool) | ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ | TypeError: zeros_like(): argument 'input' (position 1) must be Tensor, not NoneType
希望能使用langchain-chatchat 或 fastchat 来运行模型
你确定推理方式修改成官方的样子了吗,这个模型不能用你提到的这俩框架的模型接口方式进行输入(OpenAI API除外)
用的 FastChat 的 OpenAI API
那应该是不行的,得用我们的这种,这个不兼容经典的LLM的fschat交互方式
System Info / 系統信息
使用langchain-chatchat 运行 CUDA版本:12.2 transformers 版本:4.37.2 python 版本:3.11.7 操作系统:Ubuntu 20.04.6
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
Reproduction / 复现过程
模型地址配置完成后,直接运行 模型可以启动,但是向模型提问(stream模式),会先返回一个字(1 token),然后就会报错:
Expected behavior / 期待表现
希望能使用langchain-chatchat 或 fastchat 来运行模型