如何解决模型过拟合问题？

WangRongsheng / XrayGLM

🩺 首个会看胸部X光片的中文多模态医学大模型 | The first Chinese Medical Multimodal Model that Chest Radiographs Summarization.

Other

912 stars 130 forks source link

如何解决模型过拟合问题？ #17

Closed Max-Teapot closed 1 year ago

Max-Teapot commented 1 year ago

模型在x光数据集上微调之后，变得只会说这些了。

Max-Teapot commented 1 year ago

而且模型训练非常快速，我3000轮在一张a40上只花了30分钟？不知道是不是我的训练方式有问题？

WangRongsheng commented 1 year ago

模型在x光数据集上微调之后，变得只会说这些了。

现在大部分模型的微调都存在灾难性遗忘，有一些其它研究可能在推进，来改变这种现状。

WangRongsheng commented 1 year ago

而且模型训练非常快速，我3000轮在一张a40上只花了30分钟？不知道是不是我的训练方式有问题？

当然不是，BLIP2以及一些加速训练策略都在VisualGLM-6B融合了，所以其实是很快的。

Max-Teapot commented 1 year ago

作者您好，我使用您提供的模型，没有出现过拟合现象，模型可以正常识别普通照片，而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频，您在4卡a100上训练花费时间2~3小时，这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

WangRongsheng commented 1 year ago

作者您好，我使用您提供的模型，没有出现过拟合现象，模型可以正常识别普通照片，而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频，您在4卡a100上训练花费时间2~3小时，这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

这里虽然我们提到了2-3小时完成的训练，但是其实显存我们并没有充分利用，因为任务不紧急，我们只使用了较小的bs。
能够扩大数据集当然是最好的，但是如果在医疗多模态数据集中加入通用场景下的数据集这样其实似乎是不合理的。

Max-Teapot commented 1 year ago

感谢作者耐心回答，今天尝试只训练300 iters，模型还能保持看懂普通场景的图片，但是随着训练iters的增加，模型确实存在灾难性遗忘的问题。希望后续的研究工作可以缓解这方面的问题。

ybsu commented 1 year ago

模型在x光数据集上微调之后，变得只会说这些了。

您的意思是，微调是在x光胸片上进行的，微调之后在这中自然场景图像上测试的是吗？请问您在测试这种自然场景的图像之前，有没有在这种自然场景图像上再次微调呢？还是说您是在这种自然场景图像上微调之后，测试的时候模型的输出仍然是x光的病症语句吗？谢谢