Open vincewang888 opened 1 month ago
我2080 8G的环境一张图片大概也是50多秒,这个量化的应该占用显存应该是7G多,你3090应该会快不少才对的,你试下换成全量那两个版本试一下?那两个我在云服务器试过,应该是10多秒一张才对
我用3090也很慢,“默认版”25秒,“高级版”45秒 不知道和这个warning有关系没:
Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
获取一张图片提示词的过程差不多得一分钟 我是3090的显卡 而且我发现在生成提示词过程当中占用显存的比例也很小 大概8g 请问量化模型是拿时间换空间了嘛 有没有办法提高下提示词的生成速度呢