Open ysqfirmament opened 3 months ago
是不是我的电脑跑不动?
是不是我的电脑跑不动?
我觉得你应该先讲一下你显卡的型号显存 同时查一下自己的显卡是不是支持模型量化(我记得在根目录的readme有提示)
默认配置是量化到int4的 显存需求很低 而且你提示也不是oom 应该可以排除爆显存的可能(至少这一步报错的时候还不是)
我有个建议是你去把量化的参数改成fp16的(直接删掉也行) 不量化模型只是显存占用大些 速度能快好多 一是因为加载过程不用量化 二是fp16训练推理最快(我的测试中训练时间fp16<<int4<int8)
顺便一提 我的配置是4张tesla t4 16g显存 能跑所有p-tuning但是全量微调会爆显存 软件版本是
- Python:3.9.19
- Transformers: 4.27.1
- PyTorch: 1.3.1+cu116
- CUDA: 11.6
因为服务器没办法更新 另一个微调的环境需要transformers>=4.30
我还花了很久解决依赖问题依赖地狱 所以对依赖版本印象特别深
~实在不行你可以试试和我的配置保持一致 管他那么多先跑通再说~
~顺便我是Linux跑的 要不你也试试找个服务器~
看看你用的代码是不是最新的 这个报错应该是说有个标量不能用半精度实现 如果最新的代码还是报同样的错误 你可以试试把报错的代码中half()
这种半精度量化的过程修改去除
如果你修改了代码 需要的显存大概会提升 而且量化到int的操作可能也会跟着变化 所以不推荐改你理解做什么的代码 也不推荐修改代码之后再进行int量化了 #462
Is there an existing issue for this?
Current Behavior
进行微调的时候,尝试复现ADGEN数据集任务,在运行bash train.sh过程中出现此错误
执行
得到的结果为True
Expected Behavior
No response
Steps To Reproduce
将ADGEN数据集文件夹放入ptuning文件夹 在ptuning文件夹运行bash trains.sh 出现错误
Environment
Anything else?
No response