遇到的问题 :

4090训练时候显卡总是爆，（爆显存的原因主要是context len太长导致的），我试了qlora微调和ZeRO3的LoRA微调，但是依然无法适配长上下文。

为了长上下文+4090小显存的显卡，我只能把优化的方向转向ZeRO-infinity，从而增加虚拟内存，不爆显存。

ZeRO-Infinity 允许将模型状态卸载到 CPU 和/或 NVMe，以节省更多内存。智能分区和平铺算法允许每个 GPU 在卸载期间发送和接收非常少量的数据，以便现代 NVMe 可以容纳比训练过程可用的更大的总内存池。参见：https://deepspeed.readthedocs.io/en/latest/zero3.html