OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
12.14k stars 849 forks source link

模型微调,获取不了检测的能力。 #216

Closed FoolishMao closed 3 months ago

FoolishMao commented 4 months ago

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

80张图片,标注了检测框,但是微调之后,不能按照训练的格式输出结果。 微调数据集制作格式如下: image 加载训练后的lora: image 推理结果如下: image

期望行为 | Expected Behavior

提供一个微调方案,可以让模型获得简单的grounding能力

复现方法 | Steps To Reproduce

No response

运行环境 | Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):

备注 | Anything else?

No response

YuzaChongyi commented 4 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

Yangfan-96 commented 4 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

预训练用的数据集是什么啊

daihuidai commented 4 months ago

@FoolishMao @YuzaChongyi 请问你数据中准备的目标框坐标是怎么处理的呢?是目标高宽/原始高宽*1000进行归一化的吗?

lyc728 commented 4 months ago

@FoolishMao @YuzaChongyi 请问你数据中准备的目标框坐标是怎么处理的呢?是目标高宽/原始高宽*1000进行归一化的吗?

企业微信截图_17175881184738

没有推理出结果

praymich commented 4 months ago

问题解决了吗

zhangyunming commented 4 months ago

能把预训练加框的数据格式给出吗

Cuiunbo commented 4 months ago

能把预训练加框的数据格式给出吗 您好以下为预训练数据格式

xxxx1 y1 x2 y2 并且宽高将归一化成1000
qyc-98 commented 4 months ago

您好 关于lora微调 我们即将跟新一版代码,解决其中存在的一些问题,建议您在更新代码后重新进行lora微调。这次更新主要是解决了lora微调后,模型的视觉部分参数没有正常保存,导致您的训练失效,我们深感抱歉。您可以参考最新的lora加载方式,参见finetune下的readme.md。谢谢您的支持

FoolishMao commented 3 months ago

@FoolishMao @YuzaChongyi 请问你数据中准备的目标框坐标是怎么处理的呢?是目标高宽/原始高宽*1000进行归一化的吗?

是的,归一化到1000

FoolishMao commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

FoolishMao commented 3 months ago

您好 关于lora微调 我们即将跟新一版代码,解决其中存在的一些问题,建议您在更新代码后重新进行lora微调。这次更新主要是解决了lora微调后,模型的视觉部分参数没有正常保存,导致您的训练失效,我们深感抱歉。您可以参考最新的lora加载方式,参见finetune下的readme.md。谢谢您的支持

解决了,谢谢。请问模型的视觉部分参数需要正常保存,微调过程中会改变视觉部分的权重吗?

joaomsimoes commented 3 months ago

1b1a7-test I'm also getting good results with the model. I have a special use case for text. I trained using this dataset https://huggingface.co/datasets/pixparse/pdfa-eng-wds

sxlyiyiyi commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

FoolishMao commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

也不太符合预期,但是能训,eval loss降不下去。不知道是不是因为模型本身grounding能力不太够的原因,

lyc728 commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

也不太符合预期,但是能训,eval loss降不下去。不知道是不是因为模型本身grounding能力不太够的原因,

是用的lora微调吗?这边我全参数训练坐标是几乎一致的

FoolishMao commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

也不太符合预期,但是能训,eval loss降不下去。不知道是不是因为模型本身grounding能力不太够的原因,

是用的lora微调吗?这边我全参数训练坐标是几乎一致的

是的,打算用全参数微调试试。。

FoolishMao commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

也不太符合预期,但是能训,eval loss降不下去。不知道是不是因为模型本身grounding能力不太够的原因,

是用的lora微调吗?这边我全参数训练坐标是几乎一致的

全参数微调,泛化能力怎么样?

sxlyiyiyi commented 3 months ago

你好,grounding 的格式跟预训练的不太一样,可以改成 <ref>xxx</ref><box>x1 y1 x2 y2</box> 再试试

谢谢,我试试

请问训练的效果怎么样,我用这种格式训练的效果很差

也不太符合预期,但是能训,eval loss降不下去。不知道是不是因为模型本身grounding能力不太够的原因,

是用的lora微调吗?这边我全参数训练坐标是几乎一致的

全参数微调,泛化能力怎么样?

我用的lora微调,loss降到0.7左右,测试集经常不按照训练的格式输出

qinb commented 3 months ago

同样的问题,我这边loss训练到0.6左右,测试集就不按照训练格式输出。请问,你解决了吗