WangRongsheng / XrayGLM

🩺 首个会看胸部X光片的中文多模态医学大模型 | The first Chinese Medical Multimodal Model that Chest Radiographs Summarization.
Other
884 stars 128 forks source link

如何解决模型过拟合问题? #17

Closed Max-Teapot closed 1 year ago

Max-Teapot commented 1 year ago
7a6308c70b469029321cfacad7edd89

模型在x光数据集上微调之后,变得只会说这些了。

Max-Teapot commented 1 year ago

而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?

WangRongsheng commented 1 year ago

7a6308c70b469029321cfacad7edd89 模型在x光数据集上微调之后,变得只会说这些了。

现在大部分模型的微调都存在灾难性遗忘,有一些其它研究可能在推进,来改变这种现状。

WangRongsheng commented 1 year ago

而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?

当然不是,BLIP2以及一些加速训练策略都在VisualGLM-6B融合了,所以其实是很快的。

Max-Teapot commented 1 year ago

作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

WangRongsheng commented 1 year ago

作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

Max-Teapot commented 1 year ago

感谢作者耐心回答,今天尝试只训练300 iters,模型还能保持看懂普通场景的图片,但是随着训练iters的增加,模型确实存在灾难性遗忘的问题。希望后续的研究工作可以缓解这方面的问题。

ybsu commented 1 year ago

7a6308c70b469029321cfacad7edd89 模型在x光数据集上微调之后,变得只会说这些了。

您的意思是,微调是在x光胸片上进行的,微调之后在这中自然场景图像上测试的是吗? 请问您在测试这种自然场景的图像之前,有没有在这种自然场景图像上再次微调呢? 还是说您是在这种自然场景图像上微调之后,测试的时候模型的输出仍然是x光的病症语句吗? 谢谢