Closed wengyuan722 closed 9 months ago
建议后者 没做详细对比。但经验上qlora要比lora难调不少
@JustinLin610 多谢,第二种需要的显存是第一种的4倍,特别是72b,成本太大,希望能够有一个综合的微调方案。 gptq模型微调属于qlora吗,不是很懂算法原理,那这种微调和正常模型的qlora微调有什么区别
特别是72b,成本太大,希望能够有一个综合的微调方案
72B各种要求都很高,微调好了,部署也要消耗更多资源的,资源不足、经验不足不建议上来就搞72B。
gptq模型微调属于qlora吗,不是很懂算法原理,那这种微调和正常模型的qlora微调有什么区别
正常模型的qlora微调,一般会在线量化模型,比如用bnb,但量化模型的效果不好; gptq模型微调,严格来说,没有这个概念,是用gptq量化模型替代了qlora算法中在线量化得到的模型,还是对正常模型的qlora微调。 建议查阅有关资料学习相关知识。
起始日期 | Start Date
No response
实现PR | Implementation PR
大模型微调成本太高,gptq模型微调效果怎么样,另外有没有微调耗时及资源的报告
相关Issues | Reference Issues
No response
摘要 | Summary
大模型微调成本太高,gptq模型微调效果怎么样
基本示例 | Basic Example
比如72b gptq模型微调,跑1万数据量,使用一张A100要耗时多久
缺陷 | Drawbacks
无
未解决问题 | Unresolved questions
No response