-
return super().forward(input_ids=input_ids, position_ids=None, attention_mask=attention_mask, image=image)
File "/data/VisualGLM-6B/venv/lib/python3.10/site-packages/sat/model/base_model.py", l…
-
(visualglm) bit@ubuntu:~/LLM/VisualGLM-6B$ python web_demo.py --quant 4
Traceback (most recent call last):
File "/home/bit/LLM/VisualGLM-6B/web_demo.py", line 3, in
import gradio as gr
Fi…
-
```
❯ python web_demo.py
[2023-05-21 21:29:01,122] [INFO] DeepSpeed/CUDA is not installed, fallback to Pytorch checkpointing.
[2023-05-21 21:29:01,599] [WARNING] Failed to load cpm_kernels:Un…
-
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
# model = AutoModel.from_pretrained("THUDM/visualglm-6b", tr…
-
![image](https://github.com/THUDM/VisualGLM-6B/assets/14145007/8b43d370-1b24-4a7a-829d-1ec0f5ac4cf6)
-
因为`bitsandbytes`实现模型量化的时候是通过重载`.cuda()`函数实现的,也就是说模型在放到显卡的时候会发生量化(改变tensor维度)。在微调的时候,加载的预训练权重是fp16的,所以需要设置`args.device='cpu'`,把权重加载进来再调用`.cuda()`。因为这个是`bitsandbytes`的实现,我们也没办法控制,只能适配。
…
-
This is my code:
```python
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
model = AutoModel.from_pretra…
-
[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)
ChatGLM-6B 可以低配置部署VisualGLM-6B 不知道有没有怎么设置?
-
你好,我在运行`web_demo`时一直无结果(已经等待10分钟以上),但我`cli_demo`已经跑通可以正常运行了,如下图所示:
我尝试使用4bit量化后仍然是这样一直无结果,也没有什么报错信息:
希望可以帮忙看看,十分感谢!!
-